Главная / Рефераты / Дискриминантный анализ

Дискриминантный анализ

Дискриминантный анализ – анализ различий заранее заданных групп объектов исследования (потребителей, товаров, брендов и т.п.). Переменная, разделяющая совокупность объектов исследования на группы, называется группирующей. С помощью дискриминантного анализа изучаются различия между двумя или более группами по определенным признакам. Признаки, используемые для выявления различий между группами, называются дискриминационными переменными. Группирующая переменная должна быть номинальной, т.е. измеряться по номинальной шкале, а зависимые переменные – метрическими. Соблюдение этого условия обеспечивает высокую точность статистических расчетов. Однако на практике допускается, что группирующая переменная может быть номинальной или порядковой, а дискриминационные переменные могут измеряться по шкале любого типа. Результатом дискриминантного анализа является построение дискриминантной модели (дискриминантной функции), которая имеет вид D = bo + biX1 + b2X2 + … + bkXk, где D – группирующая (зависимая) переменная; bk – коэффициенты дискриминантной функции; bo – свободный член (константа); хп – дискриминационные (независимые) переменные. С помощью этой модели, зная характеристики объекта исследования, можно с определенной степенью уверенности определить его принадлежность к одной из исследованных групп. Дискриминантный анализ преследует следующие цели. 1. Определение дискриминантных функций или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной. 2. Проверка существования между группами значимых различий с точки зрения независимых переменных. 3. Определение предикторов, вносящих наибольший вклад в межгрупповые различия. 4. Отнесение случаев к одной из групп (классификация), исходя из значений предикторов. 5. Оценка точности классификации данных на группы. Дискриминантный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы: • Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует? • Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много? • Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров? • Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации? • Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни? • Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу? К статистикам, используемым в дискриминантном анализе, относятся: Каноническая корреляция. Измеряет степень связи между дискрими-нантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе. Центроид (средняя точка). Центроид – это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций – это групповые центроиды. Классификационная матрица. Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие по диагзнали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев, дает коэффициент результативности. Коэффициенты дискриминантной функции. Коэффициенты дискриминантной функции (ненормированные) – это коэффициенты переменных, когда они измерены в первоначальных единицах. Дискриминантные показатели. Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену. Собственное (характеристическое) значение. Для каждой дискриминантной функции собственное значение – это отношение межгрупповой суммы квадратов к внутри-групповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка. F – статистика и ее значимость. Значения F -статистики вычисляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной. Средние группы и групповые стандартные отклонения. Эти показатели вычисляют для каждого предиктора каждой группы. Объединенная межгрупповая корреляционная матрица. Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп. Нормированные коэффициенты дискриминантных функций. Коэффициенты дискриминантных функций используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1. Структурные коэффициенты корреляции. Также известны как дискри-минантные нагрузки, представляют собой линейные коэффициенты корреляции между предикторами и дискриминантной функцией. Общая корреляционная матрица. Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получают общую корреляционную матрицу. Коэффициент ? Уилкса. Иногда называемый U-статистикой, коэффициент ? Уилкса для каждого предиктора – это отношение внутри групповой суммы квадратов к общей сумме квадратов. Его значение варьирует от 0 до 1. Большое значение ? (около 1) указывает на то, что средние групп не должны различаться. Малые значения ? (около 0) указывают на то, что средние групп различаются. Процедура выполнения дискриминантного анализа состоит из следующих этапов (рис. 5.7). 1. Определение зависимой и независимой переменной (переменных). Первый шаг дискриминантного анализа – определение зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует, в первую очередь, перевести в статусу категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать, исходя из теоретической модели или ранее проверенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя. Далее выборку делят на две части. Одна из них – анализируемая выборка – используется для вычисления дискриминантной функции. Другая часть – проверочная выборка – предназначена для проверки дискриминантной функции. Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой. Рисунок 5.7. Процедура дискриминантного анализа. Часто распределение количества случаев в анализируемой и проверочной выборки явствует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содержать 50% лояльных и 50% нелояльны;: покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%). Для выбора предикторов в дискриминантной функции можно использовать два метода. Прямой метод – это вычисление дискриминантной функции при одновременном введении всех предикторов. В этом случае учитывается каждая зависимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы. Альтернативным методом является пошаговый метод. При пошаговом дискриминантном анализе предикторы вводят последовательно, исходя из их способности различить (дискриминировать) группы. Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию. 2. Выбор метода дискриминантного анализа. Метод дискриминантного анализа описывается числом категорий, имеющихся у зависимой переменной. Если она имеет две категории, то выбирают метод дискриминантного анализа для двух групп. Если анализируют три или больше категорий, то выбирают метод множественного дискриминантного анализа. Главное отличие между ними заключается в том, что при наличии двух групп возможно вывести только одну дискриминантную функцию. Используя множественный дискриминантный анализ, можно вычислить несколько функций. 3. Определение коэффициентов дискриминантной функции. Рассмотрим случай для двух дискриминантных переменных. Функция f(X) называется канонической дискриминантной функцией, а величины x1 и x2 – дискриминантными переменными f(x) = а]Х1 + а2Х2. Дискриминантная функция может быть как линейной, так и нелинейной. Выбор вида этой функции зависит от геометрического расположения разделяемых классов в пространстве дискриминантных переменных. Коэффициенты дискриминантной функции (аi) определяются таким образом, чтобы (X) и (Х) как можно больше отличались между собой. Вектор коэффициентов дискриминантной функции (А) определяется по формуле Полученные значения коэффициентов подставляют в формулу и для каждого объекта в обоих множествах вычисляют дискриминантные функции f(X), затем находят среднее значение для каждой группы ( ). Таким образом, каждому i-му наблюдению, которое первоначально описывалось m-переменными, будет соответствовать одно значение дискриминантной функции, и размерность признакового пространства снижается. Перед тем как приступить непосредственно к процедуре классификации, нужно определить границу, разделяющую два множества. Такой величиной может быть значение функции, равноудаленное от и ,т.е. Величина с называется константой дискриминации. Объекты, расположенные над разделяющей поверхностью f(x) = a1x1 + а2х2+…+ архр=с находятся ближе к центру множества М1, следовательно, могут быть отнесены к первой группе, а объекты, расположенные ниже этой поверхности, ближе к центру второго множества, т.е. относятся ко второй группе. Если граница между группами будет выбрана как сказано выше, то в этом случае суммарная вероятность ошибочной классификации будет минимальной. 4. Определение значимости дискриминантной функции. Бессмысленно интерпретировать результаты анализа, если определенные дискриминантные функции не являются статистически значимыми. Поэтому следует выполнить статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных функций во всех группах генеральной совокупности. В программе SPSS эта проверка базируется на коэффициенте лямбда (?) Уилкса. Если одновременно проверяют несколько функций, как в случае множественного дискриминантного анализа, то коэффициент ? является суммой одномерных ? для каждой функции. Уровень значимости оценивают, исходя из преобразования ? -статистики в статистику хи-квадрат (исходя из распределения хи-квадрат, которому подчиняется ? -статистика). Если нулевую гипотезу отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпретировать результаты. 5. Интерпретация полученных результатов. Интерпретация дискриминантных весов аналогична интерпретации во множественном регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от других предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции и связывают их с конкретными группами. При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами. Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты. Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими или дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор делит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреляции следует использовать осторожно. При интерпретации результатов дискриминантного анализа также может помочь разработка характеристической структуры для каждой группы посредством описания каждой группы через групповые средние для предикторов. 6. Оценка достоверности дискриминантного анализа. Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную – для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности или процент верно классифицированных случаев. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом. Большинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.

Каталог работ

Узнать цену

Дискриминантный анализ

Похожие рефераты: