Переходим к изучению материала и проверке знаний

Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:03, реферат

Описание работы

Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.
На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа данных: построение деревьев решений, дискриминантный анализ, построение ассоциаций и последовательномтей.

Файлы: 1 файл

8 лекция.docx

— 307.65 Кб (Скачать файл)

На первом шаге будут объединены объекты 1 и 2, поскольку между ними наименьшее расстояние, равное 2,06.

На втором шаге к первому  кластеру будет присоединен объект 3, имеющий наименьшее расстояние, равное 2,24 со вторым объектом первого кластера. На последнем шаге в кластер будет включен  четвертый объект, имеющий наименьшее расстояние до первого объекта, включенного в кластер на первом шаге.

Схема объединения кластеров  в один кластер в иерархическом  кластерном анализе обычно  изображается с помощью дендрограммы, приведенной для рассматриваемого случая ниже.

Из дендрограммы видно, что сначала объединились в один кластер  первый и второй объекты, поскольку расстояние между ними минимально и составляет 2,06. Затем к группе из двух объектов присоединяется объект 3, поскольку расстояние между  третьим объектом и вторым объектом составляет 2,24. Наконец, на последнем шаге к группе из трех объектов присоеденяется четвертый объект.

Алгоритм иерархического кластерного анализа в PASW, очень  похож на описанный выше.

Также решающую роль при  объединении объектов в кластер  играет матрица расстояний между  ними. Единственным заметным отличием является то, что  шкала расстояний при построении дендрограммы нормируется на 25. так что максимальное расстояние между кластерами всегда равно 25.

Существенным недостатком  иерархического кластерного анализа  является то, что этот метод не выявляет число реально существующих кластеров.  Это число нужно определять самому исследователю, исходя из анализа  расстояний между объектами. К этому вопросу мы еще вернемся при обсуждении конкретных примеров.

Интерпретация результатов  кластерного анализа

В файле Example_5_4.xls (файл моно загрузить на свой компьютер по ссылке "Данные для кластерного анализа)" приведены  данные о результатах  голосования избирателей 21 федеральных избирательных округов за кандидатов различных партий во время выборов в Государственную  Думу  РФ в 2003 г.

Проведя кластерный анализ объектов, требуется выяснить, существуют ли заметные отличия в результатах  голосования избирателей в изучаемых  федеральных округах. В каких  избирательных округах избиратели голосуют похоим образом?

 
Выяснить, какие из политических партий существенно различаются между  собой, с точки зрения избирателей (провести кластеризацию партий).

Процедура решения подробно описана в методическом руководстве  для проведения  практических занятий по теме "Экспертные системы" и поэтому мы отсылаем  читателей к этому руководсту.

Приведем лишь некоторые  дополнительные  сообраения, помогающие интерпретировать полученные результаты.

В этом примере данные организованы иначе, нежели в том примере, что  разбирается в руководстве для  практических занятий.

Здесь объектами являются партии, а переменными округа (в задании_4_7  из методички для практических занятий объектами являются избирательные округа, а переменными  — партии).

Поэтому для того чтобы  кластеризовать округа следует выбрать кластерный анализ переменных.

Результаты кластерного  анализа (шаги агломерации и дендрограмма приведены ниже)

Дендрограмма кластеризации представлена на рисунке ниже.

Наиболее ваной для интерпретации результатов анализа является таблица шагов агломерации (объединения в один класте) анализируемых объектов и построенная на основании этой таблицы дендрограмма кластеризации.

На первом шаге агломерации  объединяются в один кластер объекты 1 и 4 (Верхисетский и Орджоникидзевский районы города Екатеринбурга), расстояние меду которыми 13,325 ( расстояние измеренное с помощью меры хи-квадрат, как это описано выше). 

Затем объединябтся в один кластер федеральные избирательные округа  города Москвы и затем объединяются в один кластер избирательные округа Москвы и Екатеринбурга.

Затем происходит объединение  в один кластер  округа Тюменской области и еще в один кластер избирательные округа Свердловской области.

Последовательность объединений  избирательных округов прекрасно  видна на дендрограмме кластеризации.

Сколько следует выделять кластеров? этот вопрос достаточно просто решить чисто визуально. Как уже  отмечалось выше, на дендрограмме все расстояния нормируются на 25.

В рассматриваемом случае мы получим правильное число явно выделяющихся кластеров, если проведем  вертикальную линию вниз, из точки с координатой 15 на горизонтальной оси дендрограммы и пересчитаем, сколько линий, объединяющих кластеры она пересекла. Получилось, что явно выделяется четыре кластера.

Тот же результат можно  получить более формальным способом. 

В таблице шагов агломерации  следует найти первый этап при котором расстояние между объектами выросло  более всего. В нашем случае это 17 этап. Если из общего числа объектов (21) вычесть номер этапа на котором возникает первый большой прирост расстояний между кластерами, то получится число  четыре. Именно столько кластеров мы и выделили при визуальном анализе  дендрограммы.

Интерпретация результатов  кластерного анализа в этом случае довольно проста. Существенно различаются  между собой  итоги голосования в федеральных округах  Екатеринбурга, Москвы, Тюменской области и избирательных огругах Свердловской области. Итоги голосования в  Екатеринбурге более всего похожи на итоги голосования в Москве. Итоги голосования в избирательных округах Свердловской области сильно отличаются от итогов голосования в Екатеринбурге и более всего напоминают итоги голосования в избиратедьных округах Тюменской области.

Проанализируем теперь кластеризацию  партий по итогам этих выборов. Иначе  говоря, определим группы партий  итоги голосования для которых в отобранных 21 избирательных округах примерно одинаковы.

Здесь разумно сразу выбрать  число кластеров, по которым следует  распределить партии.  Это число можно выбрать  произвольно, например,  пять или  семь групп. В этом примере выбрано  семь групп.

Результаты кластеризации  партий представлены в таблице ниже.  

Из приведенной таблицы  видно, что достаточно большое число  партий объеденены в кластер с номером 1. Результаты итогов голосования за эти партии слабо отличаются вежду собой. (Можно сделать предполоение, что избиратели их плохо различают, или голосуют, случайнеым образом выбирая партию). Отдельный кластер образуют партии  Союз правых сил, Единая Россия, Российская партия жизни. Большая группа партий образует кластер 4 (возможно это партии, голосование за которые избиратели ассоциируют со слабым протестным голосованием).

Итоги такого анализа должны быть интересны прежде всего партийным лидерам, поскольку они дают представление о том, насколько узнаваемой является партия. Очевидно, что если  Партия попадает в  большую группу партий с примерно одинаковыми итогами голосования, то шансов пройти в  Думу у представителей этой партии нет.

Следует сделать оговорку. Выводы можно делать, если  анализировать все избирательные округа. В рассмотренном примере взяты не типичные избирательные округа, в которых, например, КПРФ попала в общую группу  слабо различающихся  партий, хотя известно, что есть регионы, в которых она побеждает на выборах. 

Метод К-средних

Рассмотренный выше иерархический  кластерный анализ исходит из анализа  матрицы расстояний. При большом  числе наблюдений (порядка 1000)  кластеризация требует просмотра достаточно большого массива данных и занимает много времени.

Поэтому в PASW имеется процедура  быстрого кластерного анализа, которая  использует итеративный алгоритм кластеризации, предложенный  ДЖ. Мак-Куином в 1967 г.

Этот алгоритм не использует матрицу расстояний и поэтому  в нем число операций линейно  растет с ростом числа наблюдений, а не квадратично, как в иерархическом  кластерном анализе.

В методе  К-средних число кластеров, по которым должны быть распределены анализируемые объекты, должно быть заранее известно. Пусть, например, ставится задача выделить К кластеров. Тогда на первом шаге выбираются случайным образом или задаются пользователем  К центров координат будущих кластеров.

На втором шаге происходит просмотр всех объектов, и каждый объект присоединяется  к тому из кластеров, расстояние до которого оказывается наименьшим. Существует два варианта метода  К-средних. В первом варианте  после присоединения каждого нового объекта  к тому или иному кластеру координаты центра кластера пересчитываются, а во втором варианте пересчет происходит только после просмотра всех объектов.

После того как все объекты  просмотрены и пересчитаны новые  координаты центров кластеров, процесс  распределения объектов по кластерам  начинается заново и рассчитываются новые координаты центров кластеров. Итерационный процесс заканчивается  тогда, когда после очередного шага координаты центров кластеров  остаются практически неизменными. Такая процедура обеспечивает устойчивость распределения объектов по кластерам.

 
Пример интерпретации результатов  кластерного

анализа методом К-средних

База данных риелторской фирмы содержит 1721 запись оценок стоимости проданного жилья в одном из городов РФ. Для создания правил предварительной оценки стоимости жилья, кроме продажной стоимости, фиксировалось еще 11 различных параметров квартиры. База данных содержится в файле Задача_4_15.sav. 
а) Методом К-средних проведите кластерный анализ квартир с целью выделить четыре типа квартир, имеющихся на рынке. Поскольку данные  измерены как в номинативной, так и интервальной шкалах, предусмотрите переход к стандартизованным значениям переменных при проведении вычислений. Используя таблицу конечных центров кластеров, интерпретируйте полученное разбиение квартир на классы.

 
б) Методом иерархического анализа  проведите кластеризацию переменных, выделив группы переменных, характеризующих  одну сущность. Пользуясь таблицей принадлежности к кластерам, интерпретируйте  полученное разделение переменных на классы.

Решение задачи

Решение следует начать с  преобразования переменных  к стандартным отклонениям . Это преобразование производится по формулам

,

где    это среднее значение для преобразуемой переменной, а ее среднеквадратическое  отклонения.

Смысл такого преобразования состоит в том. что преобразованные величины имеют примерно одинаковый диапазон изменения (обычно от –3 до 3).

В PASW такое преобразование делается с использованием закладок Анализ/Описательные статистики/Описательные. В появившемся окне следует установить настройки, показанные на рисунке ниже.

После  выполнения этой процедуры в редакторе данных появятся новые переменные с префиксом  Z (на картинке выше они видны, поскольку такое преобразование уже было выполнено ранее).

Для интерпретации результатов  наибольший интерес представляет таблица  конечных центров кластеров, которая  приведена ниже и таблица принадлежности к одному из кластеров для каждого  объекта. Результаты отнесения объектов к одному из кластеров можно отобразить в редакторе данных (возникает  новая переменная с именем QCL_1, если при установке параметров на закладке Сохранить  поставить галочку в окне Принадлежность к кластерам).

Для интерпретации полученных результатов нужно понять, чем  отличаются объекты, отнесенные к разным кластерам. Это можно сделать  на основании таблицы конечных центров  кластеров. Если Z-значение переменной для данного кластера отрицательно, это значит, что в данный кластер собраны объекты со значением этой переменной ниже средней, если близко к нулю, то это означает, что в кластер собраны объекты со средним значением этой переменной, а если Z-значение полоительно, то для объектов кластера значение этой переменной выше средней.

Рассмотрим первый кластер  К этому кластеру отнесены квартиры  с небольшим числом комнат, с площадью кухни несколько выше средней, с высокой этажностью дома, большим нещели средее расстоянием до метро (переменная минуть хотьбы  более 0,5) и достаточно низкой стоимостью квартиры.

Во второй кластер отнесены квартиры с еще меньшей площадью квартиры, меньшим числом комнат, но более выгодно располоенные квартиры. Цена их также оказалась выше, чем для квартир первого кластера.

В третий кластер отнесена уникальная квартира с площадью 78 м2 . Скорее всего, эта ошибка в базе данных (должно быть 7,8 м2). Такая квартира всего одна.  Мы не стали исправлять эту опечатку.

Наконец в четвертый кластер  собраны квартиры с большой площадью, удобным расположением и высокой  ценой.

В действительности приведенный  анализ весьма поверхностный, и интерпретацию  результатов можно существенно  детализировать. Мы здесь продемонстрировали только принципы такого анализа.

Применяя иерархический  кластерный анализ, поробуем классифицировать переменные, которые характеризуют качество квартиры. В этом случае  цену квартиры мы не будем включать вчисло переменных. Итоги такой классификации предсталены в таблице ниже.

Как видно из приведенной  таблицы, переменные. которые характеризуют число комнат и их размер, попали в первый кластер, переменные характеризующие расположение квартиры — во второй кластер, в третий кластер  попала переменная. характеризующая наличие телефона, а в четвертый — наличие балкона или лоджии.

Обратите внимание на то, что программа правильно распределила переменные по сущностям, понятным для  человека, т.е. она вскрыла  присущие данным закономерности.

В заключение еще раз напомним, что кластерный анализ это лишь начало исследований данных. Природу  выявленого разделения данных следует анализировать другими методами.

На практике кластерный анализ широко используется для  сегментации рынка товаров, услуг, клиентов и т. д.

Факторный анализ

 

  

 

Факторный анализ это процедура, с помощью  которой большое число переменных, характеризующих имеющиеся наблюдения, сводится к меньшему количеству независимых  величин, называемых факторами.

Информация о работе Переходим к изучению материала и проверке знаний