Кластерный анализ с применением самоорганизующихся карт Кохонена

Автор работы: Пользователь скрыл имя, 20 Января 2015 в 09:52, курсовая работа

Описание работы

Исследователь часто стоит перед лицом огромной массы индивидуальных наблюдений. Возникает задача сведения множества характеристик к небольшому ряду обобщающих итогов, выражающему действительно существенное для явления. Но пока каждый вовлеченный в анализ признак остается отдельным самостоятельным элементом со своими характеристиками, число параметров, выражающих результаты обработки, не поддается уменьшению. Единственный путь к нему – либо в отсечении большинства признаков и возвращении к малоразмерным классическим задачам, либо в объединении признаков, в замене целых «гроздей» их одним, искусственно построенным на их основе.

Файлы: 1 файл

Кластерный_анализ.docx

— 993.13 Кб (Скачать файл)

       (16)

где j – номер нейрона-победителя.

Если значение потенциала pi(k) падает ниже уровня pmin, то нейрон исключается из рассмотрения – "отдыхает". При pmin = 0 нейроны не исключаются из борьбы. При pmin =1 нейроны побеждают по очереди, так как в каждый цикл обучения только один из них готов к борьбе. На практике хороший результат получается при pmin ~ 0.75.

Другой подход состоит в искусственном изменении расстояния между вектором весов и обучающим вектором. Например, можно к большому расстоянию добавлять положительное смещение, что позволяет нейрону стать конкурентным с нейроном-победителем.

В сети Кохонена входные значения желательно (хотя и не обязательно) нормировать. Для этого следует воспользоваться одной из следующих формул:

         (17)

где xнi – нормированный компонент входного вектора.

 

    1. Карты Кохонена.

Карты Кохонена (самоорганизующиеся карты, или SOM – selforganizing map) предназначены для визуального представления многомерных свойств объектов на двумерной карте.

Карта Кохонена состоит из ячеек прямоугольной или шестиугольной (рис. 2) формы.

Рис. 2. Шестиугольные ячейки сети Кохонена

Каждой ячейке соответствует нейрон сети Кохонена. Обучение нейронов производится точно так же, как и нейронов сети Кохонена. Объекты, векторы признаков которых близки, попадают в одну ячейку или в ячейки, расположенные вблизи. Следовательно, двумерная карта Кохонена отражает на плоскости близость многомерных векторов признаков.

Ячейки, как мы уже отметили, могут быть прямоугольными или шестиугольными. Шестиугольные ячейки более корректно отображают расстояние между объектами на карте, т. к. для этих ячеек расстояние между центрами смежных ячеек одинаковы (рис. 3). Поэтому чаще применяют шестиугольные ячейки.

Рис. 3. Шестиугольные и прямоугольные ячейки

Карта Кохонена отражает близость многомерных векторов признаков, то есть сходство объектов. Но обычно требуется анализировать, по каким конкретно параметрам проявляется сходство объектов. Для этого используется раскраска карт Кохонена. Для этого строится столько карт, сколько параметров анализируется. Каждая карта соответствует одному параметру объекта. Ячейки карты раскрашиваются в разные цвета (или ттенки серого цвета) в зависимости от значения параметров, соответствующих каждой ячейке. В каждую ячейку в общем случае попадает несколько объектов. Поэтому вычисляется или среднее значение параметра объектов каждой ячейки или минимальное или максимальное значение. Если в ячейку не попал ни один объект (ячейке соответствует мертвый нейрон), то в качестве значения ячейки берется вес нейрона, соответствующий рассматриваемому параметру. Выделяются диапазоны значений параметра. Каждому диапазону ставится в соответствие цвет (или оттенок серого), и ячейки карты "раскрашиваются" соответствующими цветами.

 

  1. Кластерный анализ с применением карт Кохонена основных социально-экономических показателей административных районов Ставропольского края.

 

В ходе данной работы выполнена кластеризация районов Ставропольского края по комплексу основных социально-экономических показателей и отнесение их к наиболее и наименее благополучным. В качестве инструмента кластерного анализа будем использовать нейронную сеть Кохонена, достоинством которой по сравнению с другими алгоритмами является возможность визуального анализа многомерных данных.

Карты Кохонена позволяют также представить полученную информацию в простой и наглядной форме путем нанесения раскраски. Для этого раскрашиваем узлы карты цветами, соответствующими интересующим нас признакам объектов. Каждый признак данных порождает свою раскраску ячеек карты – по величине среднего значения этого признака у данных, попавших в данную ячейку. Собрав воедино карты всех интересующих нас признаков, получим топографический атлас, дающий интегральное представление о структуре многомерных данных (рис. 5)

Для проведения анализа применяется рабочее место аналитика Deductor Studio, которое входит в состав аналитической платформы Deductor. Данное приложение содержит набор механизмов импорта, обработки, визуализации и экспорта данных для быстрого и эффективного анализа информации. Будем использовать 14 наиболее важные показателя социально-экономического положения административных районов края (рис. 6, 7), которые представим относительными величинами интенсивности в зависимости от численности населения. Такой перевод является важным для объективной оценки территорий по уровню социально-экономического развития. Анализ других показателей затрудняется отсутствием числовых или категорийных значений по районам края.

Рис. 4. Кластеризация районов Ставропольского края по социально-экономическому положению за 2010 г. с указанием плотности населения

 

Таблица 1.  Результаты кластеризации районов Ставропольского края.

Рис. 5. Карты Кохонена показателей социально-экономического положения районов

На рис.5 курсивом выделены сокращенные названия районов представителей кластера 0, подчеркнуты – представители кластера 2, по оси Х выделены значения для Красногвардейского района.

Рис. 6. Профили кластеров районов Ставропольского края по показателям уровня социально-экономического положения.

Рис. 7. Нормализованная столбчатая диаграмма кластеров по показателям уровня социально-экономического положения районов края

Результаты по сформированным кластерам наиболее удобно рассматриваются с помощью визуализатора "Куб", в котором встроена кросс-диаграмма, изображающая полученные кластеры в графическом виде, что существенно упрощает анализ.

Как видно из рисунка 7, явным лидером является кластер 0. Высокие интегральные показатели социально-экономического положения в котором, получены не за счет результатов сельскохозяйственной деятельности.

Вторым по уровню социально-экономического положения является кластер 2. Его можно охарактеризовать высокими уровнями инвестиций в основной капитал, темпов строительства, результатов сельскохозяйственной деятельности и одновременно низкими значениями объема отгруженных товаров, производства и распределения электроэнергии, газа и воды, невысоким сальдированным финансовым результатом. Уровень занятости и заработанной платы также невысокие.

На третьем месте расположился кластер 1: при высоких значениях показателей сельскохозяйственной деятельности наблюдается низкий уровень производства продукции сельского хозяйства на 100 га посевных площадей, что говорит о низкой производительности труда. Как следствие: при высокой численности занятых в организациях – низкая заработанная плата.

Аутсайдером являются представители третьего кластера с низкими уровнями значений почти по всем показателям.

В качестве заключения можно отметить что, качество проведения кластерного анализа значительно увеличится в случае наличия большего числа показателей, по которым есть числовые или категорийные значения. Однако наибольшее влияние на полученные результаты оказывает квалификация и интуиция эксперта-аналитика. Именно он решает, на сколько кластеров необходимо разбить исследуемый набор данных, и какие свойства будут основными при построении кластера. Большое значение на способность обобщения при помощи полученной карты оказывает подходящий выбор начального радиуса обучения нейронов. Удачно выбранный способ инициализации карты (из обучающего множества или из собственных векторов) может существенно ускорить обучение и привести к получению более качественных результатов.

Для проверки полученных результатов проведен кластерный анализ с помощью алгоритма k-means, также реализуемого Deductor Studio. Полное совпадение результатов кластеризации свидетельствует об их объективности.

Полученная объективная информация может быть использована для выработки стратегии и принятия управленческих решений по развитию районов Ставропольского края.

 

Список литературы

  1. BaseGroup Labs. Технологии анализа данных: сайт. URL: http://www.basegroup.ru (дата обращения: 06.12.2012).
  2. Дюран Б., Оделл П. Кластерный анализ / Б. Дюран, П. Оделл  – М.: Статистика, 1977. 128 с.
  3. Жамбю М. Иерархический кластер-анализ и соответствия. / М. Жамбю – М.: Финансы и статистика, 1988. 342 с.
  4. Кохонен, Т. Самоорганизующиеся карты / Т. Кохонен. – М.: БИНОМ. Лаборатория знаний, 2008. – 655 с.
  5. Мандель И.Д. Кластерный анализ. / И.Д. Мандель– М.: Финансы и статистика, 1988. 176 с.
  6. Осовский, С. Нейронные сети для обработки информации / С. Осовский. – М.: Финансы и статистика, 2002. – 244 с.
  7. Ставропольский край в цифрах, 2011. Статистический ежегодник/ Территориальный орган федеральной службы государственной статистики по Ставропольскому краю. 2011. 288 с.
  8. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. – М.: Вильямс, 2006. – 1104 с.

 

 


Информация о работе Кластерный анализ с применением самоорганизующихся карт Кохонена