Кластерный анализ данных

Автор работы: Пользователь скрыл имя, 17 Декабря 2013 в 17:56, лабораторная работа

Описание работы

Задание 1.
По алгоритму кластерного анализа провести классификацию объектов иерархическим методом (древовидная кластеризация).
Задание 2.
Решить Задание 1, предварительно нормировав исходные данные.
Задание 3.
Решить Задание 1 при условии, что расстояния между кластерами измеряются по принципу “дальнего соседа”, предварительно нормируя исходные данные.
Задание 4.
Решить Задание 1, но в качестве расстояния между объектами принять «расстояние городских кварталов (Манхэттенское расстояние)», а расстояния между кластерами измерять по методу Варда. Не нормируя предварительно исходные данные.
Задание 5.
Решить Задание 1 методом К-средних. Предварительно нормируя исходные данные.

Файлы: 1 файл

Lab_4.docx

— 4.84 Мб (Скачать файл)

 

Липецкий государственный  технический университет

 

Кафедра прикладной математики

 

 

 

 

 

 

 

Лабораторная работа №4

 

по дисциплине

«Статистические методы»

 

 

«Кластерный анализ данных»

 

 

 

 

 

 

 

 

  Студенты

     

Филиппов Д.А.

Горяйнов А.О.

   

подпись, дата

 

фамилия, инициалы

Группа

 

ПМ-11-1

   
         

Руководитель

       

ассистент

     

Дятчина Д.В.

ученая степень

 

подпись, дата

 

фамилия, инициалы


 

 

 

 

Липецк 2013.

Цель  работы

 

Изучить основные принципы кластерного анализа данных, в системе STATISTICA.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задание кафедры

 

Задание 1.

По алгоритму кластерного анализа провести классификацию объектов иерархическим методом (древовидная кластеризация).

Задание 2.

Решить Задание 1, предварительно нормировав исходные данные.

Задание 3.

Решить Задание 1 при условии, что расстояния между кластерами измеряются по принципу “дальнего соседа”, предварительно нормируя исходные данные.

Задание 4.

Решить Задание 1, но в качестве расстояния между объектами принять «расстояние городских кварталов (Манхэттенское расстояние)», а расстояния между кластерами измерять по методу Варда. Не нормируя предварительно исходные данные.

Задание 5.

Решить Задание 1 методом К-средних. Предварительно нормируя исходные данные.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Практическая  часть

 

1. По алгоритму кластерного анализа провести классификацию объектов иерархическим методом (древовидная кластеризация).

Вариант 16.

Исключаем из таблицы данных 16 строку.

Рис.1. Таблица  с исходными данными.


Рис.2. Выбор метода кластерного анализа.

 

Мы выбираем Joining (tree clustering) - Объединение (двевовидная кластеризация).


Рис.3. Параметры древовидной кластеризации.

 

В строке Amalgamation [linkage] rule (Правило объединения [связи]) выберем установку для меры сходства Single Linkage (Метод одиночной связи «принцип ближайшего соседа»).

В строке Distance measure (Мера расстояния) выберем Euclidean distances (Евклидово расстояние).

 

Проведем кластеризацию по выбранным  параметрам:

 

 

Рис.4. Вертикальная древовидная дендограмма

Рис.5. Схема объединения.

Первый столбец таблицы содержит расстояния для соответствующих кластеров. Каждая строка показывает состав кластера на данном шаге классификации.

 

 

Рис.6. График схемы объединения.

Результат древовидной кластеризации в графическом виде приведен на Рис.6.

 

 

 

Рис.7. Матрица расстояний.

Рис.8. Описательные характеристики.

 

Таблица результатов со средними значениями и стандартными отклонениями для каждого объекта, включенного в кластерный анализ, приведена на Рис. 8.

 

 

 

 

 

2. Решить задание 1, предварительно нормировав исходные данные.

Рис.9. Нормирование исходных данных.

Рис.10. Исходные данные после нормировки.

Рис.11. Вертикальная древовидная дендограмма.

Рис.12. График схемы объединения.

Рис.13. Описательные характеристики.

 

 

 

 

 

3. Решить задание 1 при условии, что расстояния между кластерами измеряются по принципу «дальнего соседа», предварительно нормируя исходные данные.

Рис.14. Параметры кластерного анализа.

 

В строке Amalgamation [linkage] rule, как мы видим, выбрана установка для меры сходства Complete Linkage («принцип дальнего соседа»).

Рис.15. Вертикальная древовидная дендограмма.

 

Рис.16. График схемы объединения.

 

Рис.17. Описательные характеристики.

 

 

 

 

 

4. Решить задание 1, но в качестве расстояния между объектами принять «расстояние городских кварталов (Манхэттенское расстояние)», а расстояния между кластерами измерять по методу Варда. Не нормируя предварительно исходные данные.


Рис.18. Новые  параметры кластерного анализа.

Рис.19. Вертикальная древовидная дендограмма.

 

Рис.20. График схемы объединения.

 

Рис.21. Описательные характеристики.

 

 

 

5. Решить задание 1 методом К-средних. Предварительно нормируя исходные данные.

Рис.22. Выбор  метода кластерного анализа.

 

Выберем из списка K-means clustering (Кластеризация методом k-средних).

 

Рис.23. Параметры  кластеризации методом k-средних.

 

 

 

 

 

 

Рис.24. Вывод информации.

В верхней части содержатся значения параметров, по которым проводится анализ, а в нижней – кнопки для вывода результатов.

В верхней части окна (в том же порядке, как они идут на экране):

-  Количество переменных - 4;

-  Количество наблюдений -19;

-  Классификация наблюдений (или переменных, зависит от установки в предыдущем окне в строке Cluster) методом K - средних;

-  Наблюдения с пропущенными данными удаляются или изменяются средними значениями. Зависит от установки в предыдущем окне в строке MD deletion.

-  Количество кластеров - 2;

-  Решение достигнуто после: 1 итераций.

 

 

 

 

 

Рис.25. Дисперсионный анализ .

В данной таблице, приведена межгрупповая и внутригрупповая дисперсии. Где строки – переменные (наблюдения), столбцы – показатели для каждой переменной: дисперсия между кластерами, число степеней свободы для межклассовой дисперсии, дисперсия внутри кластеров, число степеней свободы для внутриклассовой дисперсии, F-критерий для проверки гипотезы о неравенстве дисперсий.

Рис.26. Средние значения в кластерах и евклидово расстояние.

В первой  таблице (рис. 26) указаны средние величины класса по всем переменным (наблюдениям). По вертикали указаны номера классов, а по горизонтали переменные (наблюдения).

Рис.27. Средние значения в кластерах и евклидово расстояние.

Во второй таблице (рис. 27) приведены расстояния между классами. И по вертикали и по горизонтали указаны номера кластеров. Таким образом, при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты, а ниже просто евклидово расстояние.

Рис.28. График средних.

На графике показаны средние значения переменных для каждого кластера.

Рис.29. Члены каждой группы и расстояния.

 

 

Вывод: мы изучили основные принципы кластерного анализа данных, в системе STATISTICA.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Информация о работе Кластерный анализ данных