Кластерный анализ

Автор работы: Пользователь скрыл имя, 09 Января 2014 в 21:23, лабораторная работа

Описание работы

При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.

Файлы: 1 файл

лаба 3.docx

— 443.93 Кб (Скачать файл)

Кластерный анализ

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

При большом количестве наблюдений иерархические методы кластерного  анализа не пригодны. В таких случаях  используют неиерархические методы, основанные на разделении, которые  представляют собой итеративные  методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет  выполнено правило остановки.

Такая неиерархическая  кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два  подхода. Первый заключается в определении  границ кластеров как наиболее плотных  участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое "сгущение точек". Второй подход заключается  в минимизации меры различия объектов.

Алгоритм k-средних (k-means)

Наиболее распространен  среди неиерархических методов  алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти  в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.

Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, -наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Общая идея алгоритма: заданное фиксированное число k кластеров  наблюдения сопоставляются кластерам  так, что средние в кластере (для  всех переменных) максимально возможно отличаются друг от друга.

Рассмотрим на примере.

Данные о цветах уже  содержатся в программе. Выводим наши данные на экран для дальнейшего анализа.

В «Data View» мы можем просмотреть весь список цветков и увидеть какой цветок к какому кластеру относится.

Можем просмотреть наши исходные данные в графическом виде. В этом нам поможет «Scalter 3D Color».

Далее выводим на экран  операцию «K-means» и соединяем ее с нашими исходными данными. Именно с помощью этой операцию мы построим нашу кластерную модель.

 В «Text View» мы можем просмотреть нашу кластерную модель. К нулевому кластеру относится 97 цветков, к первому - 53 цветка. Всего 150 цветков.

 

Так же в строке операция находим  операцию «Read excel», выводим ее на экран и импортируем в нее наши новые данные о цветках. Теперь нам надо  проанализировать новые данные о цветках. Новые данные находятся в импортируемой таблице. 

Выводим на экран операцию «Apply Model» ,подсоединяем эту операцию с «K-means» и с «read excel», получается цепочка из нескольких операций. Выводим всю цепочку на результат.

Мы можем просмотреть новые данные  в графическом виде с помощью «Scalter 3D Color»:

Ось Х – a1;  Ось Y – a2; Ось Z – a3.

Можем просмотреть кластерную модель для новых данных, соединив «Read excel» с «K-means».

В «Data View» можно увидеть наш окончательный результат. Проанализировав все новые данные, мы получили кластерную модель импортированных данных.


Информация о работе Кластерный анализ