Кластерный анализ

Автор работы: Пользователь скрыл имя, 25 Февраля 2013 в 19:24, курсовая работа

Описание работы

В данной работе основной целью считаем необходимым рассмотреть вопросы кластерного анализа (основы кластерного анализа), а так же рассмотреть его терминологию и провести исследования кластерного анализа на конкретном примере.

Содержание работы

ВВЕДЕНИЕ

2
1.

Определение и задача кластерного анализа

3
1.1

Определение кластерного анализа

1.2.

Задача кластерного анализа. Функции расстояния и меры сходства.

2.

Методы кластерного анализа

3
2.1.

Иерархические агломеративные методы

6
2.2.

Итеративные методы группировки. Метод k-средних

9
3.

Кластерный анализ в программе Statistica

12
ЗАКЛЮЧЕНИЕ

32
СПИСОК ИСТОЧНИКОВ И ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

34
Приложение 1

Файлы: 4 файла

При анализе и прогнозировании социально (Автосохраненный).docx

— 393.33 Кб (Скачать файл)

Самым  используемым  на  сегодняшний  день  итеративным  методом является метод k-средних, предложенный Г. Боллом и Д. Холлом в 1965 году. Итерации по такому принципу заключаются в присоединении объектов к  кластеру с ближайшим центром тяжести. Число финальных кластеров фиксировано и задается до начала кластеризации. Перевычисление центра тяжести кластера может производиться как после каждого изменения его состава, так и после того, как будет завершен просмотр всех данных.

Другими словами алгоритм данного метода кластеризации, основан на разбиении множества элементов векторного пространства на заранее определенное число кластеров k. Алгоритм представляет собой итерационную процедуру, в которой выполняются следующие шаги.

  1. выбирается число кластеров k.
  2. из исходного множества данных случайным образом выбираются k записей, которые будут служить начальными центрами кластеров.
  3. для каждой записи исходной выборки определяется ближайший к ней центр кластера. при этом записи, «притянутые» определенным центром, образуют начальные кластеры.
  4. вычисляются центроиды – центры тяжести кластеров. каждый центроид – это вектор, элементы которого представляют собой средние значения признаков, вычисленные по всем записям кластера. затем центр кластера смещается в его центроид.

 Затем 3-й и 4-й шаги итеративно повторяются. На каждой итерации происходит изменение границ кластеров и смещение их центров. В результате минимизируется расстояние между элементами внутри кластеров. Остановка алгоритма производится тогда, когда границы кластеров и расположения центроидов не перестанут изменяться от итерации к итерации, т.е. на каждой итерации в каждом кластере будет оставаться один и тот же набор записей. На практике алгоритм обычно находит набор стабильных кластеров за несколько десятков итераций.

Преимуществом алгоритма  являются быстрота и простота реализации. К его недостаткам можно отнести  неопределенность выбора начальных  центров кластеров, а также то, что число кластеров должно быть задано изначально, что может потребовать  некоторой априорной информации об исходных данных.

Выбор числа кластеров  является сложным вопросом. Если нет  предположений относительно этого  числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты.

После получений результатов  кластерного анализа методом k-средних  следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.

 

Глава 3. Кластерный анализ в программе Statistica.

Применим рассмотренный ранее метод для исследование территориальной дифференциации структуры добавленной стоимости субъектов Южного и Северо-Кавказского федеральных округов с помощью специального программного обеспечения Statistica, используя статистические данные о структуре добавленной стоимости в субъектах Российской Федерации по состоянию на 2010 год (см. Приложение 1).

Перед проведением кластерного  анализа следует обратить внимание на масштаб и шкалы, в которых  представлены изучаемые признаки. Например, если одна переменная измерена в тысячах рублей, и ее среднее 2000, а вторая в рублях, и ее среднее 20, то при расчете расстояния между объектами даже небольшие различия по первой переменной будут вносить существенный вклад в увеличение расстояния, в то время как достаточно большие различия по второй переменной будут незаметны. В таких ситуациях рекомендуется привести данные к более сравнимому масштабу, перейдя к другим единицам измерения, или провести их стандартизацию.

В нашем случае стандартизация не является необходимой, все данные представлены в процентах.

Изначально исходные данные были представлены в файле формата *.xlsx, что позволило использовать опцию вставки с заголовками Paste with Headers – Paste with Both.

После вставки данных заходим в модуль кластерного анализа, используя пункт меню Statistics – Multivariate Exploratory Techniques – Claster Analysis.

В появившемся окне выберем Joining (tree clustering) – Объединение (древовидная  классификация) и нажмем ОК.

В окне модуля иерархического кластерного анализа переходим на вкладку Advanced и далее работаем с ней. Нажимаем кнопку Variables и выбераем 5 анализируемых переменных для анализа.

В выпадающем списке Input file оставим  установленный по умолчанию вариант Raw data – это означает, что исходные данные представлены матрицей «объект-свойство», строки которой представляют объекты, а столбцы – характеризующие эти объекты признаки. Именно в таком виде представлены наши исходные данные: 13 субъектов ФО (13 строк), характеризующихся пятью признаками (5 столбцов).

В выпадающем списке Cluster изменяем установленный по умолчанию вариант Variables (columns), означающий, что кластеризоваться будут признаки (столбцы), на нужный нам вариант Cases (rows), означающий, что кластеризоваться будут объекты – в нашем случае субъекты ФО.

Далее определяемся с метрикой. В Statistica имеется несколько вариантов:

  • Squared euclidean distance – квадратичное евклидово расстояние;
  • Euclidean distance – обычное евклидово расстояние;
  • City-block (Manhattan) distances – манхеттенское расстояние;
  • Chebychev distance metric – расстояние Чебышева;
  • Power distance – специальный класс метрических функций (расстояние Минковского).

Выбор метрики производится в выпадающем списке Distance measure. Так как в нашем случае нет информации о том, что какой-то признак более важен для классификации выберем обычное евклидово расстояние.

После выбора метрики определяемся с алгоритмом кластеризации (выпадающий список Amalgamation (linkage) rule):

  • Single linkage – метод «одиночной связи»;
  • Complete linkage – метод «полных связей»;
  • Unweighted pair group average – метод «средней связи»;
  • Weighted pair group average – взвешенный метод средней связи;
  • Unweighted pair group centroid – центроидный метод (невзвешенный);
  • Weighted pair group centroid – взвешенный центроидный метод;
  • Ward′s method – метод Уорда.

Выберем метод Уорда – часто он дает довольно компактные и хорошо разделенные кластеры.

Нажатие ОК выводит на экран форму вида, представленного на рисунке ниже.

Рис. 4 Вид окна вызова результатов модуля кластерного анализа

Результаты иерархической  классификации для наглядности представляется в виде дендрограммы. Мы взяли горизонтальную дендрограмму (кнопка Horizontal hierarchical tree plot), поскольку у нас достаточно длинные названия кластеризуемых объектов, и на вертикальной дендрограмме они были бы неразличимы.

Для определения количества кластеров, на которые целесообразно разбить имеющиеся субъекты, нужно выбрать пороговое расстояние - то есть такое расстояние, при превышении которого объединяться будут уже слишком далекие объекты. После выбора порогового расстояния проводится перпендикуляр через точку, соответствующую выбранному расстоянию, и подсчитывается количество его пересечений с «ветвями» дендрограммы. Количество пересечений и будет определять количество классов, а объекты, оказавшиеся на «отсеченной» ветке – состав классов. Например, при пороговом расстоянии в 30 выделяется 3 класса, при пороговом расстоянии 20 – 4 классов, при пороговом расстоянии 11 – 7 классов (см. Приложение 2).

Выбор количества классов  может определяться на основе анализа  специальных функционалов качества, на основе сравнения разбиений на различное количество классов, возможности из содержательной интерпретации и других критериев. Окончательный выбор остается за исследователем.

Одним из доступных в Statistica инструментов для выбора количества классов являются график процесса объединения (кнопка Graph of Amalgamation schedule) и таблица объединения объектов (кнопка Amalgamation schedule). Ниже представлены график процесса объединения и таблица объединения объектов.

Используя график объединения объектов количество классов можно найти как разность n-m, где n – количество объектов в выборке, m – номер шага где находится точка «перелома» на графике.

Рис. 6 График объединения объектов в классы методом Уорда.

В случае использования таблицы в столбце linkage distance находится такой номер шага m, объединение на котором произошло уже на существенно большем расстоянии, чем на шаге m-1; тогда количество классов равно n-m, где n – количество объектов в выборке.

В нашем случае в качестве точки перелома можно рассматривать  шаг под номером 9, откуда получаем 13 - 9 = 4 класса. Такое же количество классов подтверждается и анализом таблицы объединения: на шаге 9 произошел скачок расстояния более, чем на 4 единицы, в то время как на предыдущих шагах скачки не превышали 3 единиц.

Опираясь на полученные результаты можно сказать, что целесообразно  выбранные субъекты по схожести структуры добавленной стоимости разделить на 4 класса.

Анализируя порядок следования субъектов ФО сверху вниз на дендрограмме, можно определить состав классов (см. Приложение 4):

1 класс 5 субъектов с Республики Адыгея по Республику Северная Осетия-Алания

2 класс 3 субъекта с Республики Дагестан по Республику Ингушетия

3 класс 2 субъекта с Республики Калмыкия по Республику Карачаево - Черкесская

4 класс 3 субъекта с Астраханской области по Волгоградскую область

После упорядочивания данных по алфавиту и восстановления соответствий между названиями субъектов и  их классами, получим таблицу правильных сопоставлений объектов и классов (см. Приложение 5).

Теперь мы можем определить отличия классов друг от друга, для  этого найдем средние значения признаков в каждом из выделенных. Выбираем пункт главного меню Statistics – Basic Statistics and Tables, в нем пункт Descriptive statistics.

В окне модуля описательной статистики, нажав кнопку Variables, выберем пять переменных (c/х, добыча полезных ископаемых и т. д.). Нажмем кнопку By Group и выберем в качестве группирующей переменной Grouping Variable(s) ту, в которую мы сохранили номера классов.

В качестве описательных характеристик  классов можно определить не только средние значения классов, но также можно рассчитать: границы доверительных интервалов для среднего (чтобы посмотреть, не пересекаются ли они для разных классов), дисперсию (чтобы сравнить классы по величине внутриклассового разброса значений), минимальное и максимальное значения, количество объектов в классе и коэффициент вариации (рис. 9).

Рис. 9 Выбор описательных характеристик.

Нажатие Summary даст следующие результаты, например, для третьего класса (рис. 10). Скопируем средние значения признаков в каждом классе в новый файл и переименуем переменные и объекты, как показано на рис. 11.


 

 

 

 

 

Рис. 10 Описательная статистика по третьему классу.

Затем выделим все переменные, выполним щелчок правой кнопки мыши и в выпадающем меню выберем Graphs of Block Data – Line Plot: Entire Columns. В результате чего получим график средних значений признаков в классах, полученных методом Уорда (рис. 12).

Рис. 11  Данные по средним значениям признаков в классах.


 

 

 

 

 

 

 

 

 

 

Рис. 12 График средних значений признаков в классах.

Анализ данного графика позволяет нам дать более полную интерпретацию классам.

Из графика видно, что  у первого и второго класса высокий уровень доли в добавленной стоимости по оптовой и розничной торговли, в среднем этот показатель составляет 19%.

Первый класс, состоящий из пяти субъектов, имеет не плохие показатели по доли в добавленной стоимости сельскохозяйственной продукции, обрабатывающего производства, оптовой и розничной торговли и операциям с недвижимостью. Но так же  у него самые низкие показатели приходящейся на добычу полезных ископаемых – в среднем 0,5% от всей добавленной стоимости.

Второй класс имеет  не самые лучшие показатели по доли в добавленной стоимости с/х  продукции и добычи полезных ископаемы.  Самый низкий уровень операций с недвижимостью и обрабатывающего производства. В целом можно заметить, что для субъектов этого класса рассмотренные пять статей добавленной стоимости формируют меньше половины всей добавленной стоимости - 38,3%.

Не смотря на то, что третий класс является самым малочисленным, в него входит всего 2 субъекта, он является лидером по доле в добавленной стоимости сельскохозяйственной продукции – 27,5 % от всей доли. Довольно высока и доля стоимости, формируемая за счет добычи полезных ископаемых и операций с недвижимостью. Но относительно низкие показатели по доли в добавленной стоимости обрабатывающего производства, а так же розничной и оптовой торговли.

Характерной особенностью субъектов, вошедших в четвертый класс, является самая высокая доля добавленной стоимости, приходящейся на обрабатывающее производство в среднем от всей добавленной стоимости 21%, добычи полезных ископаемых – в среднем 3,3% и операциям с недвижимостью – 7,9%. Самая низкая доля в добавленной стоимости по с/х продукции-10% от всей добавленной стоимости.

Приложение 1.docx

— 289.47 Кб (Просмотреть файл, Скачать файл)

содержание.docx

— 14.78 Кб (Просмотреть файл, Скачать файл)

Список литературы.docx

— 16.00 Кб (Просмотреть файл, Скачать файл)

Информация о работе Кластерный анализ