Главная / Рефераты / Дисперсионный анализ. Ковариационный анализ

Дисперсионный анализ. Ковариационный анализ

Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным. Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы. • Различаются ли разные сегменты рынка с точки зрения объема потребления товара? • Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой? • Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина? • Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения? • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст? • Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина? • При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке. Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений. К статистикам, используемым в дисперсионном анализе, относятся: ?2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ?2 лежит в интервале от 0 до 1. F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях. MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы. SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X. SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X). Общая сумма квадратов SSy. Полная дисперсия переменной Y. Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3). Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования. В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов. Рисунок 5.3. Процедура дисперсионного анализа. 1. Определение зависимой и независимой переменной (переменных). Пусть Y — зависимая переменная, а xi— независимая переменная. xi— это категориальная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно. 2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4). Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных. 3. Разложение полной дисперсии. Для изучения различий между средними дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной. В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью. Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой. Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента: где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами, SSx — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х. где Xij – результат i-го наблюдения j-го варианта или группы; nj – количество наблюдений j-го варианта; n – общее количество наблюдений во всех вариантах; – среднее значение для j-го варианта; – общее среднее для всех n наблюдений. В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа. Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа. Компоненты дисперсии Сумма квадратов Cтепени свободы Средний квадрат F-критерий Межгрупповая k - 1 Внутригрупповая n - k Общая n - 1 Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности. Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.) Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом: где SSx1 - это вариация переменной Y, связанная с различием средних между группами переменной X1; SSx2 - это вариация переменной Y, связанная с различием средних между группами переменной X2; SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2. Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от другого, то значение SSx1x2 приближается к нулю. В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений. Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений. Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты F-критерий Модель (n-1) + (k-1) + (n-1)(k-1) Межгрупповая (фактор x1) n - 1 Межгрупповая (фактор x2) k - 1 Взаимодействие (k-1)(n-1) Ошибка knl - kl Общая knl - 1 При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа. Следовательно, ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий эксперимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ. Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом: где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z. 4. Измерение эффектов. В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с вариацией средних значений групп X, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах X. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле: Значение корреляционного отношения ?г лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ?г равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, ?г представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость. При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид: . В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу. ? Оценка полной дисперсииMSy: 5. Проверка значимости. В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны. В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y: или Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий: Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k — 1) и (n— k). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе. В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта: . Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле: . Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 зависит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом: . Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат. Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами. При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами. 6. Интерпретация результатов. Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые переменные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых переменных на зависимую трактуются как статистически значимые. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной. Сравнение значений групповых средних показывает характер влияния независимой переменной. Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным. Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы. • Различаются ли разные сегменты рынка с точки зрения объема потребления товара? • Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой? • Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина? • Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения? • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст? • Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина? • При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке. Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений. К статистикам, используемым в дисперсионном анализе, относятся: ?2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ?2 лежит в интервале от 0 до 1. F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях. MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы. SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X. SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X). Общая сумма квадратов SSy. Полная дисперсия переменной Y. Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3). Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования. В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов. Рисунок 5.3. Процедура дисперсионного анализа. 1. Определение зависимой и независимой переменной (переменных). Пусть Y — зависимая переменная, а xi— независимая переменная. xi— это категориальная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно. 2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4). Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных. 3. Разложение полной дисперсии. Для изучения различий между средними дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной. В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью. Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой. Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента: где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами, SSx — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х. где Xij – результат i-го наблюдения j-го варианта или группы; nj – количество наблюдений j-го варианта; n – общее количество наблюдений во всех вариантах; – среднее значение для j-го варианта; – общее среднее для всех n наблюдений. В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа. Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа. Компоненты дисперсии Сумма квадратов Cтепени свободы Средний квадрат F-критерий Межгрупповая k - 1 Внутригрупповая n - k Общая n - 1 Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности. Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.) Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом: где SSx1 - это вариация переменной Y, связанная с различием средних между группами переменной X1; SSx2 - это вариация переменной Y, связанная с различием средних между группами переменной X2; SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2. Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от другого, то значение SSx1x2 приближается к нулю. В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений. Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений. Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты F-критерий Модель (n-1) + (k-1) + (n-1)(k-1) Межгрупповая (фактор x1) n - 1 Межгрупповая (фактор x2) k - 1 Взаимодействие (k-1)(n-1) Ошибка knl - kl Общая knl - 1 При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа. Следовательно, ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий эксперимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ. Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом: где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z. 4. Измерение эффектов. В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с вариацией средних значений групп X, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах X. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле: Значение корреляционного отношения ?г лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ?г равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, ?г представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость. При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид: . В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу. ? Оценка полной дисперсииMSy: 5. Проверка значимости. В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны. В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y: или Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий: Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k — 1) и (n— k). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе. В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта: . Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле: . Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 зависит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом: . Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат. Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами. При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами. 6. Интерпретация результатов. Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые переменные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых переменных на зависимую трактуются как статистически значимые. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной. Сравнение значений групповых средних показывает характер влияния независимой переменной. Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным. Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы. • Различаются ли разные сегменты рынка с точки зрения объема потребления товара? • Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой? • Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина? • Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения? • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст? • Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина? • При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке. Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений. К статистикам, используемым в дисперсионном анализе, относятся: ?2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ?2 лежит в интервале от 0 до 1. F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях. MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы. SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X. SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X). Общая сумма квадратов SSy. Полная дисперсия переменной Y. Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3). Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования. В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов. Рисунок 5.3. Процедура дисперсионного анализа. 1. Определение зависимой и независимой переменной (переменных). Пусть Y — зависимая переменная, а xi— независимая переменная. xi— это категориальная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно. 2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4). Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных. 3. Разложение полной дисперсии. Для изучения различий между средними дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной. В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью. Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой. Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента: где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами, SSx — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х. где Xij – результат i-го наблюдения j-го варианта или группы; nj – количество наблюдений j-го варианта; n – общее количество наблюдений во всех вариантах; – среднее значение для j-го варианта; – общее среднее для всех n наблюдений. В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа. Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа. Компоненты дисперсии Сумма квадратов Cтепени свободы Средний квадрат F-критерий Межгрупповая k - 1 Внутригрупповая n - k Общая n - 1 Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности. Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.) Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом: где SSx1 - это вариация переменной Y, связанная с различием средних между группами переменной X1; SSx2 - это вариация переменной Y, связанная с различием средних между группами переменной X2; SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2. Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от другого, то значение SSx1x2 приближается к нулю. В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений. Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений. Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты F-критерий Модель (n-1) + (k-1) + (n-1)(k-1) Межгрупповая (фактор x1) n - 1 Межгрупповая (фактор x2) k - 1 Взаимодействие (k-1)(n-1) Ошибка knl - kl Общая knl - 1 При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа. Следовательно, ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий эксперимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ. Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом: где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z. 4. Измерение эффектов. В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с вариацией средних значений групп X, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах X. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле: Значение корреляционного отношения ?г лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ?г равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, ?г представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость. При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид: . В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу. ? Оценка полной дисперсииMSy: 5. Проверка значимости. В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны. В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y: или Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий: Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k — 1) и (n— k). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе. В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта: . Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле: . Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 зависит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом: . Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат. Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами. При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами. 6. Интерпретация результатов. Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые переменные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых переменных на зависимую трактуются как статистически значимые. Другими словами, среднее значение зависимой переменной различно для различных групп независимой переменной. Сравнение значений групповых средних показывает характер влияния независимой переменной. Дисперсионный и ковариационный анализ – статистические методы анализа маркетинговой информации, которые используются для изучения различий средних значений зависимых переменных, вызванных влиянием контролируемых независимых переменных, при условии, что учтено влияние неконтролируемых независимых переменных. С помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). При этом должна быть зависимая переменная, измеренная с помощью интервальной или относительной шкалы, и как минимум одна независимая переменная или фактор. В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным. Дисперсионный и ковариационный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы. • Различаются ли разные сегменты рынка с точки зрения объема потребления товара? • Различается ли отношение розничных, оптовых торговцев и торговых агентов к политике распределения, проводимой фирмой? • Влияет ли осведомленность потребителей о магазине (высокая, средняя и низкая) на предпочтение данного магазина? • Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения? • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже среднего, среднее, колледж, высшее) и возраст? • Как осведомленность об универмаге (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем этого магазина? • При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке. Несмотря на то, что дисперсионный и ковариационный анализы используют чаще всего для анализа экспериментальных данных, они также полезны для анализа результатов опроса или данных наблюдений. К статистикам, используемым в дисперсионном анализе, относятся: ?2 , эта-квадрат – корреляционное отношение. С ее помощью выражают степень влияния или силу эффекта X (независимой переменной или переменных) на Y (зависимую переменную). Значение ?2 лежит в интервале от 0 до 1. F-критерий (F-статистика) – отношение межгрупповой дисперсии к дисперсии ошибки, с помощью которого проверяют равенство категориальных средних в выборочных совокупностях. MS, средний квадрат – это сумма квадратов отклонений наблюдений, поделенная на соответствующее ей число степеней свободы. SSx, вариация переменной Y, обусловленная различием средних между группами (межгрупповая вариация). Вариация переменной Y, связанная с вариацией средних значений категорий переменной X. Она представляет собой вариацию между уровнями переменной Х или долю в сумме квадратов переменной Y, связанную с переменной X. SSошибки, вариация переменной Y, обусловленная вариацией внутри каждой группы категорий (внутригрупповая дисперсия). Это вариация переменной Y, обусловленная изменением внутри каждой из групп переменной X. Она осуществляется за счет всех факторов, кроме X (при исключенном X). Общая сумма квадратов SSy. Полная дисперсия переменной Y. Процедура выполнения дисперсионного и ковариационного анализов состоит из следующих этапов (рисунок. 5.3). Первым шагом осуществления анализа необходимо решить, разницу между средними в каких выборках, следует рассчитывать. В связи с этим возникает вопрос о выборе переменных для исследования. В самом простом случае имеется предположение, что существует зависимость между некоторыми переменным. Для того, чтобы проверить существование такой зависимости, необходимо типизировать переменные, а затем определить какая из них будет зависимой и какая (какие) независимой. Зависимая переменная – метрическая, то есть, измерена с помощью интервальной или относительной шкалы, а независимые переменные – категориальные, измеренные с помощью порядковой или номинальной. Независимые переменные получили название факторов. Рисунок 5.3. Процедура дисперсионного анализа. 1. Определение зависимой и независимой переменной (переменных). Пусть Y — зависимая переменная, а xi— независимая переменная. xi— это категориальная переменная, имеющая k категорий (уровней, групп). Для каждой группы xi существует п наблюдений Y. Для упрощения часто допускают, что размеры выборок в группах переменной xi (групповые размеры) равны, но это допущение необязательно. 2. Выбор метода разложения дисперсии. Метод разложения дисперсии зависит от количества и типа используемых переменных (рисунок 5.4). Рисунок 5.4. Выбор метода разложения дисперсии в зависимости от количества и типа переменных. 3. Разложение полной дисперсии. Для изучения различий между средними дисперсионный анализ использует разложение полной вариации, наблюдаемой в зависимой переменной. В дисперсионном анализе разделение вариации, зависимой переменной, на вариацию, обусловленную различием средних внутри групп плюс вариацию, обусловленную внутригрупповой изменчивостью. Эту вариацию вычисляют как сумму квадратов с поправкой на среднее (на число степеней свободы) (SS). Дисперсионный анализ называют так потому, что он изучает изменчивость или дисперсию выборки (применительно к зависимым переменным) и, исходя из этой изменчивости, определяет, действительно ли выборочные средние равны между собой. Полную вариацию в однофакторном дисперсионном анализе, обозначаемую SS, можно разложить на два компонента: где нижние индексы относятся к группам переменной X. SSx - это вариация переменной Y, связанная с различием средних между группами переменной X. Она представляет вариацию между категориями переменной Х (межгрупповая изменчивость). Другими словами, SSx — это доля в сумме квадратов переменной Y, обусловленная действием независимой переменной или фактором X. SSошибки - это вариация переменной Y, связанная с вариацией внутри каждой группы переменной Х, ее вычисляют не учитывая фактор Х. где Xij – результат i-го наблюдения j-го варианта или группы; nj – количество наблюдений j-го варианта; n – общее количество наблюдений во всех вариантах; – среднее значение для j-го варианта; – общее среднее для всех n наблюдений. В таблице 5.8 представлены базовые статистики, рассчитываемые в рамках однофакторного дисперсионного анализа. Таблица 5.8. Базовая таблица однофакторного дисперсионного анализа. Компоненты дисперсии Сумма квадратов Cтепени свободы Средний квадрат F-критерий Межгрупповая k - 1 Внутригрупповая n - k Общая n - 1 Смысл разложения полной вариации в переменной SSy на компоненты SSx и SSошибки в том, чтобы наглядно представить и затем изучить различия в групповых средних. В дисперсионном анализе рассматривают несколько различных групп (например, сильное, среднее, слабое использование, отсутствие использования товара). Если нулевая гипотеза верна, и все группы имеют одно и то же среднее значение совокупности, то можно оценить, насколько сильно отличаются выборочные средние вследствие только выборочной (случайной) вариации. Если наблюдаемое различие в выборочных средних больше ожидаемого, то логично заключить, что эта дополнительная вариация связана с различиями в групповых средних в совокупности. Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. Взаимодействия имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется при неравном числе наблюдений для расчетов рекомендуется использовать соответствующие пакеты прикладных программ (STATISTICA, SPSS и др.) Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2. В этом случае полная вариация раскладывается следующим образом: где SSx1 - это вариация переменной Y, связанная с различием средних между группами переменной X1; SSx2 - это вариация переменной Y, связанная с различием средних между группами переменной X2; SSx1x2 - это вариация переменной Y, связанная с взаимодействием X1 и X2. Большее влияние X1 будет отражаться в большем отличии среднего в уровнях X1 и более высоком значении SSx1. Это же касается и фактора Х2. Чем сильнее взаимодействие между факторами X1 и X2, тем больше значение SSx1x2. С другой стороны, если X1 и X2 зависят один от другого, то значение SSx1x2 приближается к нулю. В таблице 5.9 представлен общий вид вычисления значений, с помощью двухфакторного дисперсионного анализа при равном числе наблюдений. Таблица 5.9. Базовая таблица двухфакторного дисперсионного анализа при равном числе наблюдений. Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты F-критерий Модель (n-1) + (k-1) + (n-1)(k-1) Межгрупповая (фактор x1) n - 1 Межгрупповая (фактор x2) k - 1 Взаимодействие (k-1)(n-1) Ошибка knl - kl Общая knl - 1 При осуществлении ковариационного анализа зависимая переменная статистически корректируется на основе связанной с ней дополнительной информацией (ковариатой), с тем, чтобы устранить вносимую извне изменчивость и повысить эффективность анализа. Следовательно, ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого из факторов (условий эксперимента). Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ. Рассмотрим простой пример эксперимента с равным количеством наблюдений, в который входят факторы X1 и Х2 и ковариата Z. В этом случае полная вариация раскладывается следующим образом: где SSz - это вариация переменной Y, связанная с различием средних между группами ковариаты Z. 4. Измерение эффектов. В однофакторном дисперсионном анализе сила влияния переменной X на Y измеряется с помощью SSx. Поскольку SSx связана с вариацией средних значений групп X, то относительное значение SSx растет с увеличением различий между средними значениями Y в группах X. Относительное значение SSx также увеличивается при уменьшении вариаций Y внутри групп X. Эффект влияния переменной X на Y вычисляют по формуле: Значение корреляционного отношения ?г лежит в пределах от 0 до 1. Оно равно нулю, когда все групповые средние равны, т.е. переменная X не влияет на Y. Значение ?г равно 1, когда внутри каждой из групп переменной X изменчивость отсутствует, но имеется некоторая изменчивость между группами. Таким образом, ?г представляет собой меру вариации Y, которая объясняется влиянием независимой переменной X. Мы не только можем измерить влияние X на Y, но и проверить его значимость. При многофакторном дисперсионном анализе эффект влияния определяется с помощью множественной корреляции. Множественная корреляция – это степень объединенного влияния двух или более факторов или полный эффект. Так при осуществлении двухфакторного дисперсионного анализа эффект объединенного влияния имеет следующий вид: . В случае осуществления ковариационного анализа при измерении эффекта степень влияния ковариаты не учитывают. Методика же расчета множественной регрессии аналогична многофакторному дисперсионному анализу. ? Оценка полной дисперсииMSy: 5. Проверка значимости. В однофакторном дисперсионном анализе проверяют нулевую гипотезу, утверждающую, что групповые средние в рассматриваемой совокупности равны. В соответствии с нулевой гипотезой значения SSX и SSошибки зависят от одного источника вариации. В таком случае оценка дисперсии совокупности Y может определяться межгрупповой или внутригрупповой вариацией. Иначе говоря, оценка дисперсии совокупности Y: или Нулевую гипотезу можно проверить с помощью F-статистики, рассчитываемой как отношение между этими двумя оценками дисперсий: Эта статистика подчиняется F-распределению с числом степеней свободы (df), равным (k — 1) и (n— k). Таблица распределения. F-статистики приведена в приложении 3. F-распределение представляет собой распределение вероятностей отношений выборочных дисперсий. Значение F зависит от числа степеней свободы в числителе и знаменателе. В многофакторном дисперсионном анализе проверку значимости осуществляют путем оценки значимости полного эффекта: . Если полный эффект статистически значимый, то на следующем этапе изучают значимость эффекта. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий F-критерий вычисляют по формуле: . Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X1 зависит от Х2, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов. Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый. В таком случае проверка значимости главного эффекта для каждого отдельного фактора производится следующим образом: Проверку значимости при ковариационном анализе осуществляют аналогично процедуре многофакторного дисперсионного анализа с той лишь разницей, что наряду с оценкой главных эффектов факторов, осуществляется оценка главных эффектов ковариат. Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяют с помощью соответствующих F-критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами. При работе с ковариатами может случиться, что значение F становится меньше (менее значимое) после включения в план ковариат. Это обычно указывает на то, что ковариаты не только коррелируют с зависимой переменной, но и с межгрупповыми факторами. 6. Интерпретация результатов. Если нулевую гипотезу о равенстве групповых средних не отклоняют, то независимые переменные не оказывают статистически значимого влияния на зависимую переменную. С другой стороны, если нулевую гипотезу отклонить, то эффекты независимых перем

Каталог работ

Узнать цену

Дисперсионный анализ. Ковариационный анализ

Похожие рефераты: