Автор работы: Пользователь скрыл имя, 09 Января 2014 в 21:23, лабораторная работа
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Кластерный анализ
Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Такая неиерархическая
кластеризация состоит в
Алгоритм k-средних (k-means)
Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, -наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
Рассмотрим на примере.
Данные о цветах уже содержатся в программе. Выводим наши данные на экран для дальнейшего анализа.
В «Data View» мы можем просмотреть весь список цветков и увидеть какой цветок к какому кластеру относится.
Можем просмотреть наши исходные данные в графическом виде. В этом нам поможет «Scalter 3D Color».
Далее выводим на экран операцию «K-means» и соединяем ее с нашими исходными данными. Именно с помощью этой операцию мы построим нашу кластерную модель.
В «Text View» мы можем просмотреть нашу кластерную модель. К нулевому кластеру относится 97 цветков, к первому - 53 цветка. Всего 150 цветков.
Так же в строке операция находим
операцию «Read excel», выводим ее на экран
и импортируем в нее наши новые данные
о цветках. Теперь нам надо проанализировать
новые данные о цветках. Новые данные находятся
в импортируемой таблице.
Выводим на экран операцию «Apply Model» ,подсоединяем эту операцию с «K-means» и с «read excel», получается цепочка из нескольких операций. Выводим всю цепочку на результат.
Мы можем просмотреть новые данные в графическом виде с помощью «Scalter 3D Color»:
Ось Х – a1; Ось Y – a2; Ось Z – a3.
Можем просмотреть кластерную модель для новых данных, соединив «Read excel» с «K-means».
В «Data View» можно увидеть наш окончательный результат. Проанализировав все новые данные, мы получили кластерную модель импортированных данных.