Подготовительные этапы статистического анализа
Подготовка данных к анализу является предварительной стадией анализа полученной в исследования информации и состоит из рада последовательных действий (рисунок 5.1).
Рисунок 5.1. Процесс подготовки данных к анализу.
* Корректировка информации осуществляется лишь в случае необходимости. По результатам корректировки может быть принято решение о сборе дополнительной информации или откорректирована база данных.
1. Редактирование подразумевает проверку и при необходимости корректировку каждой анкеты или формы с результатами наблюдений. Основная задача редактирования заключается в определении минимальных стандартов качества для полученных данных. Проверка и коррекция обычно осуществляются в два этапа: это полевое редактирование и централизованное офисное редактирование.
Полевое редактирование подразумевает предварительное редактирование, проводимое для выявления наиболее заметных пропусков и неточностей данных. Оно помогает также контролировать работу полевого персонала и корректировать его ошибки понимания установок, процедур, конкретных вопросов и т. д.
Полевое редактирование должно осуществляться сразу же после заполнения анкет или других форм сбора данных, с тем, чтобы проблемы могли быть разрешены до того, как интервьюеры или наблюдатели забудут об источниках недоразумений или просто разъедутся по домам. Обычно полевое редактирование осуществляется полевым супервайзером.
Характеристики данных, проверяемые при полевом редактировании:
А) Полнота. Эта проверка подразумевает тщательный анализ форм отображения данных для исключения возможных пропусков и для контроля ответов на конкретные вопросы. Пустое место в графе ответов может означать, что респондент отказался отвечать на вопрос, либо же отражать тот факт, что респондент просто случайно пропустил вопрос или не знает правильного ответа на него. Иногда для исследователя бывает важно знать истинную причину такого пропуска. Беседа с полевым работником сразу после проведения им интервью позволяет быстро провести необходимые уточнения.
Б) Разборчивость. Невозможно проводить кодирование результатов анкетирования, если они не могут быть расшифрованы по причине неразборчивости почерка интервьюера или использования им малопонятных сокращений. Поэтому необходимо устранить эти неясности как можно быстрей, поскольку потом для этого потребуется гораздо больше времени.
В) Понятность. Иногда записанные ответы оказываются непонятными никому, кроме интервьюера. При оперативном обнаружении таких ответов можно легко получить необходимые пояснения.
Г) Однозначность. Ответ оказался неприемлемым или нечетким (например, непонятно, в каком из квадратиков поставлен значок при выборе из нескольких вариантов).
Д) Согласованность. Очевидные противоречия в ответах или данных наблюдений обычно указывают на ошибки сбора или записи данных, а также могут говорить о неоднозначности методов получения информации или их неаккуратном применении.
Е) Единообразие. Крайне важно, чтобы ответы записывались в одинаковых единицах измерения. Поэтому при быстром выявлении такого несоответствия интервьюер может повторно обратиться к респонденту и получить правильный ответ.
Централизованное офисное редактирование подразумевает более полное и тщательное изучение и корректировку заполненных форм. Эта работа требует хорошего знания целей и процедур исследования. Для обеспечения согласованности трактовки результатов желательно, чтобы редактор просматривал всю анкету целиком. Если же это невозможно по соображениям трудоемкости, то работа может быть разделена на части. Однако такое разделение должно подразумевать распределение между редакторами разных частей формы сбора данных, а не отдельных групп респондентов. Например, один редактор может проверять в анкетах часть А, а другой — часть Б.
Централизованное офисное редактирование, в отличие от полевого редактирования, в меньшей степени зависит от использования проверочных процедур и в большей степени — от решения вопроса о том, что следует делать с полученными данными. Точная проверка результатов опроса становится теперь более трудной, так как с момента получения ответов уже прошло много времени.
Решая, что следует делать с собранными данными, редактор обычно должен определить, как ему поступить с анкетами, содержащими неполные и ошибочные ответы, а также ответы, демонстрирующие отсутствие интереса к теме опроса у респондента. Поскольку подобные проблемы чаще возникают именно при обработке анкет, то мы рассмотрим встречающиеся здесь затруднения именно с этой точки зрения, хотя данные принципы могут применяться и при работе с формами отображения результатов наблюдений.
Среди проблем, которые должны выявляться в ходе офисного редактирования, можно перечислить следующие.
А) Пропуски. Иногда в анкетах пропускаются целые разделы, а иногда отсутствуют ответы лишь на случайно пропущенные вопросы. Решение редактора о том, как следует поступить с такими материалами исследований, зависит от их полноты.
Б) Ошибки интервьюера. Интервьюер не предоставил респонденту необходимые инструкции, что привело к получению некорректных данных.
В) Недостаток сотрудничества. Если анкета длинная и содержит сотни вопросов, респондент может «взбунтоваться» и отметить один и тот же вариант (например, на шкале «согласен — не согласен») в длинной серии вопросов.
Г) Не соответствующий требованиям респондент. В выборку мог попасть не соответствующий требованиям респондент (например, если выборка состоит только из женщин старше 18 лет, все остальные должны быть исключены).
Для решения подобных проблем существует несколько вариантов действий. Лучше всего попытаться еще раз связаться с респондентом, особенно если вопросы, о которых идет речь, очень важны. Следующий вариант — просто не учитывать данную анкету. Такие действия будут оправданны, если очевидно, что респондент либо не понял, как отвечать на анкету, либо не пожелал сотрудничать. С этой целью проводится выбраковка анкет и интервьюерам рекомендуют провести повторное интервью.
Менее экстремальный вариант — отбросить лишь проблемные вопросы, сохранив баланс остальных. Еще один подход — кодировать все не соответствующие требованиям или пропущенные ответы как «не знаю» или «нет мнения». Такая методика может упростить анализ данных, не внося существенных искажений в их интерпретацию.
2. Кодирование – это технический прием, с помощью которого данные распределяются по категориям, то есть способ представления полученной информации в виде символов, знаков, цифр с целью удобства ее использования для анализа. Чаще всего в качестве кодов используются цифры, поскольку их табулирование и подсчет оказываются наиболее простыми. Однако такое обозначение не является автоматическим и подразумевает проведение кодировщиком определенных оценок.
Первый этап кодирования представляет создание системы кодирования. В основу кодирования должна быть поставлена иерархическая структура принципов классификации информации. Вначале должны быть разработаны критерии деления полученной информации на категории, классы, группы, виды, подвиды и т.д. по технологии от общего к частному. Количество уровней кодирования будет зависеть от структуры вопросов в анкете маркетингового исследования. Правильность выбранной структурной классификации информации подтверждается попаданием ответов на каждый вопрос анкеты в ячейку структуры. Кроме того, необходимо учитывать, что по каждому вопросу возможно получение нескольких ответов. Поэтому классифицируемая структура должна содержать соответствующую градацию и подвиды ячеек.
Кодирование закрытых вопросов и большинства результатов шкалирования является довольно простым. В таких случаях респонденты кодируют себя сами своими ответами, или же интервьюер кодирует их при записи реакций на задаваемые вопросы (рисунок 5.2).
Кодирование открытых вопросов может быть очень сложным и часто оказывается намного более дорогостоящим, чем кодирование закрытых вопросов. В этом случае кодировщик должен определить соответствующие категории на основе ответов, которые он не всегда способен заранее предвидеть. По причине свободы, предоставляемой респондентам, их ответы на открытые вопросы часто оказываются неясными и нередко относятся к ошибочно выбранным категориям, несмотря на подробные инструкции, даваемые кодировщикам.
Кодирование открытых вопросов может создать дополнительные проблемы трактовки ответов, когда для обработки большого количества анкет требуется привлечение многих кодировщиков. Для обеспечения единообразия трактовки вся работа должна быть разделена на части в соответствии с отдельными задачами исследования, а не просто распределена между кодировщиками в равных объемах.
Благодаря концентрации внимания и усилий кодировщиков на одном или нескольких вопросах обеспечивается более согласованное использование стандартов обработки результатов.
На втором этапе производится присвоение кодовых номеров ячейкам структурной классификации маркетинговой информации. Присвоение кодовых номеров можно производить различными способами: в виде букв любого алфавита; цифрами; символами; комбинацией букв, символов и цифр. Например, пол респондентов может обозначаться буквой М для мужчин и буквой F для женщин. Либо категория мужчин может быть обозначена цифрой 1, а категория женщин — цифрой 2.
Рисунок 5.2. Пример кодировки информации, осуществляемой непосредственно в анкете.
В практике существует два основных вида кодировки данных: категориальная и дихотомическая. Вид кодировки переменных определяется типом вопроса анкеты. Категориальная кодировка используется для альтернативных закрытых вопросов и открытых вопросов, в случае, когда кодировщик унифицировал варианты ответов респондентов. Дихотомическая применятся для кодировки многовариантных закрытых вопросов.
Категориальная кодировка предполагает несколько вариантов ответа на поставленный вопрос, т. е. метка переменной может принимать несколько значений.
Дихотомическая кодировка предполагает только два варианта ответа на поставленный вопрос, т.е. метка переменной может принимать только два значения («да» или «нет»).
Таблица 5.1. Категориальная кодировка данных. Вопрос анкеты: «Как часто Ваша семья приобретает твердые сыры?»
Номер анкеты Значения метки переменной «Частота покупки»: Никогда - «1 », Часто - «2», Изредка - «3», Ежедневно – «4»
1
1
2
3
3
1
4
1
…
…
При использовании категориальной кодировки данных все респонденты, участвующие в исследовании, могут быть поделены на категории относительно выбранного ими варианта ответа. Например, относительно частоты приобретения твердых сыров все респонденты могут быть поделены на четыре категории: «никогда не приобретающие», «приобретающие часто», «приобретающие изредка» и «приобретающие ежедневно» (табл. 5.1).
При кодировании данных по многовариантному вопросу создается несколько переменных, каждая переменная имеет свою метку. Метки создаваемых переменных могут иметь только два значения. В этом случае применяется дихотомическая кодировка данных (табл. 5.2).
Таблица 5.2. Дихотомическая кодировка данных. Вопрос анкеты: «Какие марки молочной продукции Вы когда-либо употребляли?»
Номер анкеты Переменные (значения меток переменных: употреблял - «1», не употреблял - «0»)
«Молочная страна» «Славянские традиции» «Савушкин продукт» «Бабушкина крынка» «Беллакт» «Молочный мир» «Околица» «Данон»
1 1 1 0 1 0 0 0 1
2 1 0 0 0 0 0 0 1
3 0 1 1 0 0 0 0 0
4 0 1 0 1 0 0 0 0
… … … … … … … … …
Для компьютерной обработки наиболее желаема цифровая система кодирования информации. Кроме того, для компьютерного ввода кода необходимо обеспечить и наглядность ввода записи. Использование других символов затрудняет ввод кода и обработку сообщения в компьютере.
При кодировании информации рекомендуется следовать установившимся традициям и принципам, существующим на предприятии. Существуют и общие принципы кодирования информации, которым необходимо следовать.
А) Использовать в каждой колонке только одну категорию ответа. Когда вопрос допускает несколько вариантов ответа, распределяйте эти варианты таким образом, чтобы каждый из них помещался в отдельной колонке.
Б) Использовать только числовые коды и избегать кодирования с помощью букв, специальных знаков или пробелов. Большинство компьютерных программ приспособлены к работе исключительно с цифрами.
В) Поле на бланке, выделяемое для записи кодов переменной, должно состоять из такого числа колонок, которое необходимо для фиксирования всех возможных значений. Поэтому если для кодирования переменной недостаточно 10 кодов (от 0 до 9), соответствующих 10 категориям, то аналитик должен использовать при записи две колонки, позволяющие применять 100 кодов (от 00 до 99). Кроме того, на каждом поле бланка должна отображаться только одна переменная.
Г) Использовать стандартные коды для вариантов «Не имею информации». Так, ответы «Не знаю» могут кодироваться цифрой 8, «Нет ответа» — цифрой 9, «Не имеет отношения» — цифрой 0. Это лучше, чем использовать один и тот же код для всех этих ответов, подразумевающих отсутствие информации.
Д) Кодировать идентификационный номер респондента для каждой анкеты. Эти номера обычно не позволяют идентифицировать респондента по имени и просто «привязывают» анкету к закодированным данным. Такая привязка может оказаться полезной.
Третий этап в технологии кодирования заключается в создании кодировочной таблицы или книги кодов. Книга кодов создается при достаточно большом количестве вопросов анкеты. В ней прописываются общие инструкции по применимости кодов, структура кодирования по категориям принятой классификации, как кодируется каждая позиция в системе вопросов. В ней перечисляются коды каждой переменной и категории, включенные в каждый код. Далее в ней указывается, где в компьютерной записи располагается переменная и каким образом эта переменная учитывается. Пример книги кодов представлен в таблице 5.3.
3. Создание базы данных. Следующим шагом информация, полученная в ходе полевых работ, заносится в базу данных в виде присвоенных кодов. Пример базы данных представлен в таблице 5.4.
4. Табулирование заключается в простом подсчете числа случаев, попадающих в различные категории. Различают два вида табулирования: простое и перекрестное. Простое табулирование подразумевает подсчет единственной переменной. Оно может повторяться для каждой из переменных исследования, однако табулирование одной переменной происходит независимо от табулирования других (табл. 5.5). При перекрестном табулировании две или более переменных рассматриваются одновременно; при этом осуществляется подсчет случаев, имеющих общие характеристики.
Таблица 5.5. Категориальная кодировка данных. Вопрос анкеты: «Как часто Ваша семья приобретает твердые сыры?»
Вариант Частота Процент
никогда 96 9,6
изредка 279 27,9
часто 403 40,3
ежедневно 222 22,2
Всего 1000 100,0
Таблица 5.3. Пример книги кодов для исследования ранка молочной продукции.
Номер Название вопроса Тип кодировки Количество символов Количество знаков после запятой Примечания Значения метки Пропущенные значения Ширина колонки Выравнивание Единицы измерения
1 сыр твердый цифровая 1 0 "1"=никогда; "2"=часто; "3"=изредка; "4"=ежедневно нет 8 справа веса
2 сыр плавленый цифровая 1 0 "1"=никогда; "2"=часто; "3"=изредка; "4"=ежедневно нет 8 справа веса
… … … … … … … … … … …
16 цена цифровая 1 0 "1"=1; "2"=2; "3"=3; "4"=4; "5"=5 нет 8 справа веса
17 жирность цифровая 1 0 "1"=1; "2"=2; "3"=3; "4"=4; "5"=5 нет 8 справа веса
… … … … … … … … … … …
27 Третий цифровая 1 0 "1"=да; "2"=нет нет 8 справа веса
28 Четвертый цифровая 1 0 "1"=никогда; "2"=иногда; "3"=постоянно нет 8 справа веса
29 Пятый цифровая 1 0 "1"=да; "2"=нет нет 8 справа веса
30 Шестой цифровая 8 0 "10000000"=Молочная страна; "01000000"=Славянские традиции; "00100000"=Савушкин продукт; "00010000"= Бабушкина крынка; "00001000"=Беллакт;
"00000100"= Молочный мир; "00000010"=Околица; "00000001"=Данон; "00010001"= Данон+Бабушкина крынка; "01100100"=Молочный мир +Савушкин продукт+Славянские традиции ... нет 54 справа веса
31 предпочтения_молоко цифровая 1 0 "1"=ГМЗ-1; "2"=ГМЗ-2; "3"=ГМЗ-3; "4"=Савушкин продукт; "5"=Бабушкина крынка; "6"=Беллакт; "7"=Данон нет 8 справа веса
32 предпочтения_кефир цифровая 1 0 "1"=ГМЗ-1; "2"=ГМЗ-2; "3"=ГМЗ-3; "4"=Савушкин продукт; "5"=Бабушкина крынка; "6"=Беллакт; "7"=Данон нет 8 справа веса
… … … … … … … … … … …
Таблица 5.4. Пример базы данных для исследования ранка молочной продукции.
Номер анкеты сыр твердый сыр плавленый … цена жирность … Третий Четвертый Пятый Шестой предпочтения_молоко предпочтения_кефир …
1 1 1 … 4 3 … 1 2 2 11010001 6 6 …
2 3 1 … 3 5 … 1 3 1 10000001 4 4 …
3 1 2 … 3 2 … 1 2 2 01100000 2 2 …
4 1 1 … 2 5 … 1 3 1 01010000 4 5 …
5 4 3 … 3 4 … 1 2 1 11111110 4 4 …
6 2 1 … 3 4 … 1 2 1 01010100 4 4 …
7 2 1 … 5 5 … 1 3 1 11001111 4 4 …
8 4 2 … 5 5 … 1 3 1 10110010 3 3 …
9 2 2 … 4 4 … 1 2 1 00000001 3 3 …
10 4 2 … 3 3 … 1 2 1 11100000 6 4 …
11 2 2 … 2 5 … 1 2 1 01010100 6 6 …
12 3 2 … 1 3 … 1 3 1 11001111 5 1 …
13 2 2 … 2 4 … 1 3 1 00001100 4 1 …
14 2 1 … 3 4 … 2 2 1 00011001 4 4 …
15 1 1 … 3 2 … 1 2 1 10000000 1 3 …
16 2 1 … 3 5 … 1 3 1 11111111 4 4 …
17 3 2 … 4 4 … 1 2 1 01010100 2 5 …
18 3 2 … 2 4 … 1 3 1 01010100 4 2 …
19 1 1 … 4 5 … 1 2 1 00010011 2 2 …
20 2 1 … 3 3 … 1 3 1 01010000 4 1 …
21 3 2 … 4 4 … 1 2 1 00011001 5 5 …
22 3 2 … 5 5 … 1 2 1 01100000 4 3 …
23 2 2 … 4 1 … 1 3 1 00100001 4 4 …
24 3 1 … 4 1 … 1 2 1 00010011 1 2 …
25 4 2 … 4 4 … 1 3 1 11000000 2 4 …
26 2 3 … 5 3 … 1 2 1 00011001 1 1 …
27 1 2 … 5 3 … 2 2 1 00000110 4 1 …
28 4 3 … 1 5 … 1 2 1 00010011 1 1 …
29 3 3 … 4 4 … 2 2 1 11111110 4 4 …
30 3 2 … 2 5 … 1 2 1 00100001 3 4 …
Табулирование может осуществляться вручную, с помощью компьютера или же путем совместного использования этих способов. То, какой из методов оказывается наиболее эффективным, зависит от числа необходимых табуляций и от количества случаев в каждом варианте табулирования. Количество табуляций прямо пропорционально количеству переменных, а количество случаев прямо пропорционально размеру выборки. Чем меньше число необходимых табуляций и чем меньше выборка, тем более привлекательным становится табулирование вручную. Однако привлекательность каждого из вариантов во многом зависит от сложности табулирования. Эта сложность возрастает по мере увеличения числа переменных, требующих одновременного учета при проведении перекрестного табулирования. Кроме того, сложность возрастает с увеличением числа категорий для каждой переменной.
Простое табулирование помимо отражения результатов исследования может служить для следующих целей: (1) определения показателя неполучения ответа на вопрос; (2) определения места возникновения грубых ошибок; (3) определения места возникновения резких отклонений от среднего; (4) получения эмпирического распределения рассматриваемой переменной; и (5) расчета итоговых значений статистики. Первые три направления обычно называются «очисткой данных», а третье и четвертое, относятся к базовым методам анализа, которые будут подробно рассмотрены в п. 5.3.1.
В то время как простое табулирование — это удобный способ раздельного рассмотрения изучаемых переменных, перекрестное табулирование является важным инструментом выявления взаимосвязей между результатами исследования. В случае перекрестного табулирования выборка разделяется на подгруппы с целью изучения того, как ведут себя в каждой из них зависимые переменные (табл. 5.6). Этот метод анализа данных наиболее широко используется в маркетинговых исследованиях. Большинство таких исследований фактически ограничивается проведением перекрестного табулирования, а те исследования, которые используют более комплексные методы, включают в себя перекрестное табулирование в качестве одного из основных инструментов анализа.
В частности, с помощью перекрестного табулирования могут быть решены следующие проблемы:
• По каким характеристикам потребители, ежедневно приобретающие сыр, отличаются от потребителей, не приобретающих сыр?
• Зависит ли частота приобретения сыра от пола?
• Существуют ли прямая зависимость между частотой приобретения сыра и уровнем дохода потребителя?
5. Корректировка данных. Зачастую в результате табулирования выявляются различного рода проблемы в собранной информации. В этом случае возникает необходимость в осуществлении корректировки данных, которая может осуществляться в форме очистки и статистической корректировки данных.
Очистку данных целесообразно осуществлять по результатам простого табулирования в следующих случаях:
Таблица 5.6. Перекрестное табулирование. Доход ? Пол ? Частота покупок твердого сыра.
Уровень
доходов
Частота покупок твердого сыра
Всего
никогда изредка часто еженедельно
150-300 тыс.руб.
Пол
мужской 9 53 47 6 115
женский 64 130 178 52 424
Всего 73 183 225 58 539
301-450 тыс.руб.
Пол
мужской 8 30 40 22 100
женский 3 41 56 46 146
Всего 11 71 96 68 246
451-600 тыс.руб.
Пол
мужской 6 9 10 18 43
женский 6 36 36 78
Всего 6 15 46 54 121
601-750 тыс.руб.
Пол
мужской 6 4 18 28
женский 10 6 16
Всего 6 14 24 44
751-900 тыс.руб.
Пол
мужской 4 4
женский 6 12 18
Всего 6 4 12 22
более 900 тыс.руб.
Пол
мужской 13 6 19
женский 9 9
Всего 22 6 28
- неполучения ответа, если это не было обнаружено и устранено на стадии редактирования;
- наличия грубой ошибки;
- возникновения чрезмерных отклонений от среднего.
Наличие вопросов, оставшихся без ответа, является серьезной проблемой для большинства исследований. На практике величина показателя неполучения ответа часто служит полезным индикатором качества исследования. Когда она оказывается высокой, то это ставит под сомнение результаты всего исследования в целом и подразумевает необходимость строгого анализа поставленных целей и использованных процедур. Если же она оказывается небольшой, то в этом случае все равно требуется принятие решений о том, что следует делать с отсутствующими ответами до начала анализа данных. При этом могут использоваться следующие приемы.
1. Предоставить для случаев отсутствия ответов отдельную категорию. Хотя эта процедура с успехом используется в случаях простой одномерной и перекрестной табуляции, для некоторых статистических методов она оказывается абсолютно непригодной.
2. Исключить случай отсутствия ответа в процессе анализа за счет использования соответствующей переменной величины. При таком подходе аналитик должен непрерывно указывать число случаев, на которых основывается его анализ, поскольку размер выборки в этом случае будет постоянно изменяться. Данный подход не учитывает тот факт, что высокая частота неполучения ответов по какому-то вопросу сама по себе может служить источником важных идей; например, она может сигнализировать о невысоком интересе респондентов к теме, затрагиваемой этим вопросом.
3. Использование заменяющих величин для вопросов, оставшихся без ответа. Обычно такая замена подразумевает использование некой меры среднего, например среднего арифметического, медианы или моды. В других же случаях аналитик может попытаться определить содержание отсутствующего ответа на основании информации, имеющейся в анкете в целом. Замена величин приводит к максимальному использованию данных, так как при этом учитываются все пригодные случаи. В то же время она является очень трудоемкой и содержит предпосылки для внесения искажений. Кроме того, она ставит вопрос о выборе статистического метода, необходимого для получения оценки.
Грубая ошибка является по своей сути ошибкой, имеющей довольно большое значение. Она может возникнуть при редактировании, кодировании или вводе данных в компьютер. Простое табулирование позволяет выявить такую ошибку и исправить на раннем этапе анализа с минимальными затруднениями и затратами.
Чрезмерное отклонение не является ошибкой. Оно просто соответствует результату наблюдения, который настолько отличается от других результатов, что вынуждает аналитика рассмотреть его в качестве отдельного случая. Это рассмотрение может свестись к исключению результатов такого наблюдения из дальнейшего рассмотрения или потребовать определения факторов, вызвавших подобный эффект.
Существует много способов статистической корректировки, повышающих пригодность данных для анализа. К наиболее часто используемым процедурам статистической корректировки данных относятся взвешивание, переопределение переменных и преобразование шкал.
Взвешивание — это процедура, при которой каждому ответу в базе данных приписывается число в соответствии с некоторым заранее определенным правилом. Наиболее часто присвоение весов проводится для того, чтобы сделать данные по выборке более репрезентативными по некоторым характеристикам по отношению к целевой совокупности. Категориям респондентов, недостаточно представленным в выборке, присваивают больший вес, а тем, кого оказалось слишком много, — меньший. Присвоение весов производится также для того, чтобы увеличить или уменьшить в выборке число случаев, соответствующих определенным характеристикам.
Присвоение весов также может использоваться для придания большей важности ответам респондентов с определенными характеристиками.
Переопределение переменных — процедура, при которой существующие данные модифицируются таким образом, чтобы создать новые переменные, или несколько переменных объединяются с целью уменьшения их общего числа. Например, предположим, что первоначально переменная определяется как причина покупки молочных продуктов с 10 категориями ответов. Эти категории можно объединить в четыре группы: качество, вкус, цена и имидж изготовителя. Переопределение также может предполагать использование отношения двух переменных с целью создания новой, взятие квадратного корня и логарифмов, использование фиктивных переменных.
Преобразование шкалы предполагает манипулирование значениями шкалы для того, чтобы обеспечить совместимость с другими шкалами. В одном и том же исследовании для измерения различных переменных могут использоваться различные шкалы. Таким образом, сопоставление полученных по разным шкалам значений было бы бессмысленным. Даже если для всех переменных используется одна и та же шкала, разные респонденты могут использовать ее по-разному. Некоторые участники исследования могут постоянно использовать нижнюю часть порядковой шкалы, другие — верхнюю. Эти различия можно исправить, преобразовав данные соответствующим образом.
Осуществление корректировки требует специальной подготовки и высокого профессионализма и опыта осуществления подобных операций.
Похожие рефераты: