Главная / Рефераты / Кластерный анализ.

Кластерный анализ.

Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х1,Х2, ..., Хm. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Объекты в каждом кластере должны быть похожи между собой и отличаться от объектов в других кластерах. Слово кластер английского происхождения (cluster) и переводится как сгусток, пучок, групп. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, сегодня включает в себя более 100 различных алгоритмов. Кластерный анализ также называют классификационным анализом или численной таксономией (систематикой). Кластерный анализ, как и дискриминантный, предназначен для классификации переменных. Однако в дискриминантном анализе необходима предварительная информация о кластерной (групповой) принадлежности каждого рассматриваемого объекта или события для того, чтобы разработать правило классификации. В отличие от этого, в кластерном анализе нет необходимости в предварительной информации о кластерной принадлежности любого из объектов. Группы, или кластеры, определяют с помощью собранных данных, а не заранее. Кластерный анализ используют в маркетинге для различных целей. • Сегментация рынка. Например, потребителей можно разбить на кластеры на основе выгод, которые они ожидают получить от покупки данного товара. Каждый кластер может состоять из потребителей, которые ищут схожие выгоды. Этот метод называют сегментаций преимуществ. • Понимание поведения покупателей. Кластерный анализ используется для идентификации однородных групп покупателей. Затем поведение каждой группы при покупке товара изучается отдельно. Кластерный анализ также использовали, чтобы определить виды стратегий, применяемых покупателями автомобилей для получения внешней информации. • Определение возможностей нового товара или позиционирование товара. Кластеризацией торговых марок и товаров можно определить конкурентоспособные наборы в пределах данного рынка. Торговые марки в одном и том же кластере конкурируют более жестко между собой, чем с марками других кластеров. Фирма может изучить свои текущие предложения в сравнении с предложениями своих конкурентов, чтобы определить потенциальные возможности новых товаров. • Выбор тестовых рынков. Группировкой городов в однородные кластеры можно подобрать сравнимые города для проверки различных маркетинговых стратегий. • Сокращение размерности данных. Кластерный анализ можно использовать как основной инструмент сокращения размерности данных при создании кластеров или подгрупп данных, более удобных для анализа, чем отдельные наблюдения. Последующий многомерный анализ выполняют над кластерами, а не над отдельными наблюдениями. Например, чтобы описать отличия в поведении потребителей по отношению к товарам, их вначале разбивают на группы. Затем различия между группами проверяют с помощью множественного дискриминантного анализа. К понятиям, используемым в кластерном анализе, относятся: Мера расстояния и сходства. Способ вычисления расстояния между объектами. Метод объединения. Правила определения расстояния между кластерами, используемые в агломеративной иерархической кластеризации. Кластерный центроид. Среднее значение переменных для всех случаев или объектов в конкретном кластере. Кластерные центры. Исходные начальные точки в неиерархической кластеризации. Кластеры строят вокруг этих центров, или зерен кластеризации. Принадлежность кластеру. Указывает кластер, которому принадлежит каждый случай или объект. Рисунок 5.9. Процедура кластерного анализа. Древовидная диаграмма (дендрограмма). Ее также называют древовидный граф — графическое средство для показа результатов кластеризации. Вертикальные линии представляют объединяемые кластеры. Положение вертикальной линии на шкале расстояния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Расстояния между кластерными центрами. Указывают, насколько разнесены отдельные пары кластеров. Кластеры, которые разнесены широко, ясно выражены и поэтому желательны. Этапы выполнения кластерного анализа представлены на рис. 5.9. 1. Формулировка проблемы. Самая важная часть формулирования проблемы кластеризации — это выбор переменных, на основе которых проводят кластеризацию. Включение даже одной или двух посторонних (не имеющих отношение к группированию) переменных может исказить результаты кластеризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории или тестируемой гипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы. 2. Определение метода кластеризации. Существует два подхода к формированию кластеров — иерархический и неиерархический. Иерархическая кластеризация может использовать подход «сверху вниз» (все объекты помещаются в один кластер, после чего разделяются — иногда до тех пор, пока каждый объект не окажется в своем «индивидуальном» кластере), или «снизу вверх» (каждый объект находится в своем собственном кластере, после чего начинается их объединение — иногда до тех пор, пока все объекты не окажутся в одном кластере). Если объект связан с другим объектом в своем кластере, они останутся вместе и далее. Программа неиерархической кластеризации отличается лишь тем, что она позволяет объектам покидать один кластер и присоединяться к другому в процессе образования кластеров, если это улучшает значение критерия кластеризации. При использовании этого подхода сначала определяется центр кластера, после чего все объекты, которые попадают в заранее определенное пороговое расстояние от него, включаются в этот кластер. Если требуется получить решение с тремя кластерами, определяются три центра. Эти центры могут быть случайными числами, а могут быть получены в результате иерархической кластеризации. Каждый подход имеет свои преимущества. Результаты иерархической кластеризации сравнительно просто читать и интерпретировать. Они имеют логическую структуру, которая теоретически должна существовать всегда. Недостаток иерархической кластеризации состоит в том, что она является сравнительно нестабильной и ненадежной. Первое объединение или разделение объектов, которое может основываться на небольших различиях критерия, наложит ограничение на весь последующий анализ. При проведении иерархической кластеризации всегда следует разделять выборку, по крайней мере, на две группы и проводить их независимую кластеризацию, чтобы увидеть, образуются ли одинаковые кластеры в обеих группах. Если все они окажутся различными, стоит проявить осторожность. Неиерархическая кластеризация более надежна, чем иерархическая. Если программа на ранних этапах анализа примет решение, которое в дальнейшем окажется ошибочным в плане критерия кластеризации, ситуацию можно будет исправить, перемещая объекты из одного кластера в другой. Основной недостаток состоит в том, что серия полученных кластеров обычно не систематизирована, поэтому ее трудно интерпретировать. Однако то, что результаты выглядят беспорядочными, иногда дает положительный эффект, поскольку не создается иллюзии порядка при его отсутствии. Тем не менее, с этими результатами может быть очень трудно работать. Далее нам необходимо выбрать число кластеров априори, что может быть очень сложной задачей. На самом деле оба подхода могут быть использованы последовательно. Сначала, иерархический подход может быть использован для определения числа кластеров и выявления «выскакивающих» элементов, а также с целью получения центров кластеров. Далее выскакивающие элементы (если таковые имеются) удаляются, после чего используется неиерархический подход, которому в качестве исходных данных передается число кластеров и параметры их центров, полученные в результате иерархической кластеризации. Таким образом, достоинства обоих подходов сочетаются, в связи с чем можно получить более качественные результаты. Существует несколько методов группировки объектов в кластеры — как в иерархическом, так и в неиерархическом подходах. Метод кластеризации зависит от используемого в нем метода объединения. На рисунке 5.10 представлена иллюстрация различных методов иерархической кластеризации. Иерархические методы могут быть агломеративными (объединительными) и дивизивными (разделяющими). Агломеративная кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера. Процедуры агломеративной кластеризации нашли применение в программных пакетах SPSS, SYSTAT, Statistica. Чаще в маркетинговых исследованиях используют агломеративные методы, в том числе методы связи, дисперсионные и центроидные методы. Методы связи включают: (А) метод одиночной связи, (Б) метод полной связи и (В) метод средней связи. (А) Процедура метода одиночной связи основана на наиболее коротком расстоянии между объектами. Она находит двух индивидуумов (два объекта), разделенных наиболее короткой дистанцией, и помещает их в первый кластер. Далее находится следующая наиболее короткая дистанция, и третий индивидуум либо присоединяется к первым двум, входя в их кластер, либо формирует новый кластер из двух индивидуумов. Этот метод иногда называют «методом ближайшего соседа». (Б) Процедура метода полной связи аналогична процедуре одиночной связи за тем исключением, что критерий кластеризации основан на наиболее длинной дистанции. По этой причине ее иногда называют «методом дальнего соседа». Расстояние между двумя кластерами является наибольшим расстоянием от точки первого кластера до точки второго. (В) Метод средней связи начинается аналогично предыдущим, однако критерием кластеризации является среднее расстояние от индивидуумов одного кластера до индивидуумов другого. Подобные методы не используют экстремальные значения, как это предполагают методы одиночной и полной связи, а в разделении объектов участвуют все члены кластеров, а не одна пара «экстремальных» объектов. Дисперсионные методы формируют кластеры таким образом, чтобы минимизировать внутрикластерную дисперсию. Широко известным дисперсионным методом, используемым для этой цели, является метод Варда. В основе метода Варда лежит потеря информации, которая происходит в результате разделения объектов на кластеры и измеряется при помощи общей суммы квадратов отклонений (евклидовых расстояний) каждого объекта от центра своего кластера. По мере формирования новых кластеров общая сумма квадратов отклонений возрастает. На каждой стадии процедуры кластеризации сумма квадратов минимизируется по всем делениям (полному набору разбитых или отдельных кластеров), доступным благодаря объединению двух кластеров из предыдущей стадии. Эта процедура объединяет кластеры с небольшим числом наблюдений. Центроидный метод предполагает использование расстояния между центроидами групп (центроид — это точка, координаты которой являются средними по всем наблюдениям в кластере). Если в кластере имеется только одно наблюдение, то оно само и будет центроидом. Далее производится объединение групп в соответствии с расстоянием между их центроидами; группы, расстояния между центроидами которых являются минимальными, объединяются первыми. Следует помнить, что различные методы объединения дают неодинаковые результаты. Так, в таблице 5.12 представлены результаты объединения в два кластера одной совокупности с помощью рассмотренных ранее методов при прочих равных условиях. Таблица 5.12. Количество наблюдений в кластерах по результатам иерархического агломератного кластерного анализа. Номер кластера Метод одиночной связи Метод полной связи Метод средней связи (внутри групп) Метод Варда Центроидный метод 1 36 12 26 28 25 2 1 25 11 9 12 Итого 37 37 37 37 37 Дивизивная кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока каждый объект не окажется в отдельном кластере. Дивизивную кластеризацию можно осуществить с помощью статистического пакета STATGRAPHICS. Среди неиерархических методов (также известных как итеративное деление или методы k-средних) тремя наиболее часто используемыми являются последовательный пороговый метод, параллельный пороговый метод и метод оптимизации. Эти методы используются в программных пакетах SPSS, SYSTAT, Statistica. Последовательный пороговый метод. В данном случае выбирается центр кластера, и все объекты, попадающие в некоторое заранее определенное пороговое значение, объединяются. Далее выбирается новый центр кластера, и процесс повторяется для не вошедших в кластеры объектов и т. д. После того как объект попадает в кластер, он не подлежит дальнейшей обработке. Параллельный пороговый метод. Этот метод аналогичен предыдущему, за тем исключением, что одновременно выбираются несколько центров кластеров, и объекты, попадающие в пороговое значение, относятся в кластер, центр которого является ближайшим по отношению к ним; после этого уровни порогов могут быть скорректированы (чтобы в кластеры попадало больше или меньше объектов). Метод оптимизации. Этот метод — модификация двух предыдущих, которая заключается в том, что объекты могут быть переведены из одного кластера в другой в ходе оптимизации по некоторому общему критерию, — такому, как среднее внутрикластерное расстояние для данного числа кластеров. Рисунок 5.10. Классификация методов иерархического анализа. 3. Выбор меры расстояния. Чтобы группировать объекты, необходим некоторый показатель сходства или различия. Схожие объекты группируются вместе, а те, что отстоят от них, попадают в другие кластеры. Среди наиболее часто используемых в кластерном анализе показателей можно перечислить следующие. Евклидово расстояние. Евклидово расстояние между двумя точками х и у — это наименьшее расстояние между ними. В двух- или трёхмерном случае — это прямая, соединяющая данные точки. Общей формулой для n-мерного случая (n переменных) является: . Квадрат евклидового расстояния. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности. Эта мера должна всегда использоваться при построении кластеров при помощи центроидного метода и метода Варда. Корреляция Пирсона. Ее применение целесообразно для большого количества переменных. Если кластеризация наблюдений осуществляется только на основании двух переменных, то корреляционный коэффициент Пирсона со значениями находящимися в пределах от -1 до +1 не годится для использования в качестве меры подобия; он будет давать только значения -1 или +1. Чебышев. Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям. Блок. Эта дистанционная мера, называемая также дистанцией Манхэттена дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом. Минковский. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени: Мера хи-квадрат. Для того, чтобы найти расстояние между двумя наблюдениями, сравнивают частоты выпадения переменных, относящихся к этим наблюдениям. Квадратный корень из значения хи-квадрат будет применяться в качестве дистанционной меры. Мера фи-квадрат. Эта мера представляет собой попытку нормализации меры хи-квадрат. Для этого она делится на квадратный корень общей суммы частот. Существуют и другие меры расстояния. Выбор меры расстояния зависит от типа критериев кластеризации (например, для интервальных и относительных переменных целесообразно применять евклидово расстояние, квадрат евклидова расстояния, меру Чебышева и др.), их количества (например, при большом количестве критериев используют корреляцию Пирсона) и выбранного метода объединения (например, для центроидной и дисперсионной кластеризации целесообразно ее осуществление на основе квадрата евклидова расстояния). Кроме того, следует отметить, что разные пакеты прикладных программ обладают разным набором мер расстояния для проведения кластерного анализа. Необходимо учитывать тот факт, что использование различных мер расстояния дает неодинаковые результаты в рамках одного метода объединения. Так, в таблице 5.13 представлены результаты объединения в два кластера одной совокупности с помощью рассмотренных ранее мер расстояния при использовании метода полной связи. Таблица 5.13 Количество наблюдений в кластерах по результатам иерархического агломератного кластерного анализа. Номер кластера Евклидово расстояние Квадрат евклидового расстояния Корреляция Пирсона Чебышев Блок Минковский Мера хи-квадрат Мера фи-квадрат 1 12 12 34 27 28 12 31 33 2 25 25 3 10 9 25 6 4 Итого 37 37 37 37 37 37 37 37 4. Принятие решения о количестве кластеров. Главный вопрос кластерного анализа — как определить соответствующее число кластеров. Существует несколько подходов. Определение, основанное на предварительной информации. Аналитик может заранее определить это число, исходя из теоретических знаний и логики. Кроме того, у аналитика могут быть некоторые практические соображения в пользу того или иного числа кластеров — в зависимости от того, как он собирается их использовать. Определение, основанное на уровне кластеризации. Можно задать уровень кластеризации, который будет выражен значением ее критерия. Если критерий кластеризации может быть легко интерпретирован, как, например, средняя схожесть внутри кластеров, следует определить уровень, который и покажет число кластеров. Определение числа кластеров на основании модели кластеров, которую генерирует программа. В качестве полезного руководства в иерархической кластеризации могут выступать расстояния между кластерами на последовательных шагах, и аналитик принимает решение остановиться, когда расстояние превысит определенное значение или когда расстояние между кластерами после очередного шага скачкообразно изменится. Эти расстояния иногда называют показателями изменчивости ошибки. Определение числа кластеров на основе графика зависимости отношения дисперсий от числа кластеров. При неиерархической кластеризации можно построить график зависимости от числа кластеров отношения суммарной дисперсии внутри групп к межгрупповой дисперсии. Точка резкого перегиба кривой и показывает соответствующее число кластеров. Определение числа кластеров, основанное на их размерах. Относительные размеры кластеров должны быть достаточно выразительными и соотносимыми. Независимо от того, какой именно подход используется, всегда полезно взглянуть на модель кластеров в целом. Это позволит составить представление о качестве кластеризации и о числе кластеров, которые появляются на разных уровнях критерия кластеризации. Для выявления сегментов хорошей альтернативой кластерному анализу может быть процедура оценки плотности. 5. Интерпретация и профилирование кластеров. После формирования кластеров аналитику нужно их описать. Одним из часто используемых показателей является центроид — среднее значение объектов кластера по каждой из переменных, формирующих профиль каждого объекта. Если данные являются интервальными, а кластеризация выполняется в пространстве исходных переменных, этот показатель можно считать вполне естественным показателем сводного описания. Средние оценки должны помочь описать кластеры или профилировать их. Если данные были стандартизированы или если кластерный анализ проводился с использованием компонентов факторного анализа (составленных факторов), аналитик должен вернуться к исходным значениям переменных и вычислить средние профили с использованием этих данных. Полезно профилировать кластеры в терминах переменных, которые не были использованы для кластеризации. Сюда могут входить демографические, психографические факторы, характеристики использования продукта и средств массовой информации и другие переменные. Например, если кластеры были сформированы по признакам выгод, которые ищет человек, дальнейшее профилирование может осуществляться в терминах демографических и психографических переменных, чтобы скорректировать маркетинговую программу для каждого кластера. Переменные, по которым между кластерами наблюдается существенное различие, можно выявить при помощи дискриминантного или однофакторного дисперсионного анализа.

Каталог работ

Узнать цену

Кластерный анализ.

Похожие рефераты: