Переходим к изучению материала и проверке знаний

Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:03, реферат

Описание работы

Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.
На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа данных: построение деревьев решений, дискриминантный анализ, построение ассоциаций и последовательномтей.

Файлы: 1 файл

8 лекция.docx

— 307.65 Кб (Скачать файл)

Лекция 8. Переходим  к изучению материала и проверке знаний

You have earned 0 point(s) out of 0 point(s) thus far.

Кластерный анализ

Можно выделить несколько основных типов задач, для решения которых используются универсальные или специализированные пакеты программ:

 
1. Манипуляция данными, импорт, экспорт  файлов с сохранением в различных  форматах.

2. Получение описательной  статистики (среднее, дисперсия и  т. д.)

3. Установление взаимосвязи  (корреляционный анализ).

4. Сравнение выборочных средних.

5. Регрессионный анализ.

6. Логистическая регрессия.

7. Анализ временных рядов.

8. Дискриминантный анализ.

9. Факторный анализ.

10. Кластерный анализ.

11. Построение деревьев  решений и выявление правил  если- то-результат.

12. Построение ассоциаций  и последовательностей.

Естественно, возможна  комбинация всех перечисленных задач в различных сочетаниях. 

Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.

На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа  данных: построение деревьев решений, дискриминантный анализ,  построение ассоциаций и последовательномтей.

В этой лекции мы познакомимся  с остальными перечисленными выше (кроме анализа временных рядов) направлениями Data Mining.

Но вначале рассмотрим некоторые аспекты, связанные с  тем как представлять данные для  анализа. 

Типы статистических шкал в PASW

 
Практически все известные пакеты анализа данных оперируют исключительно  данными, представленными в числовой форме. Поэтому, формируя данные, исследователь  ставит в соответствие значениям  переменной, имеющей содержательный смысл, числовые значения (например, пол  мужской кодируется цифрой 1, женский – цифрой 2). Такое соответствие называется шкалой измерения переменной.

В зависимости от свойств  переменной выделяют шкалы: номинативную, порядковую (ранговую), интервальную и  шкалу отношений.

Первые две шкалы являются неколичественными, а две последние  – количественными. Возможность  использования для  анализа данных той или иной статистической процедуры зависит от шкалы измерения этих данных.

Номинативная (категориальная) шкала является самым «низким» уровнем  измерения. В этом случае числовое значение приписывается переменным произвольно. Типичным примером переменной, которая  измеряется в номинативной шкале, является пол.

Например, в социологической  анкете  пол – мужской  кодируется цифрой 1, а женский пол – цифрой 2. В данном случае  значения 1 и 2 не связаны между собой какими либо отношениями. Бессмысленным бы было утверждение, что женский пол вдвое больше мужского.

Другим примером переменной, измеряемой в номинативной шкале может, может служить профессия. Например, при изучении профессионального состава работников цеха можно использовать следующее кодирование: профессия токарь закодирована цифрой 1; профессия слесарь – цифрой  2; профессия электрик – цифрой 3.

Ясно, что переменные, измеренные в этой шкале, нельзя подвергать никаким  арифметическим, алгебраическим или  логическим операциям. Для переменных этого типа невозможно определить наименьшее и наибольшее значение, среднее значение, дисперсию, медиану и как следствие  этого  нельзя применять параметрическое тестирование (тестирование, основанное на использовании известных параметрах распределения).

Поскольку для номинативных переменных нельзя определить понятие  ранга, то невозможно определить и понятие  ранговой корреляции. Единственный параметр статистического распределения, который  здесь имеет смысл, – это мода распределения. В то же самое время переменные  номинативного типа могут быть использованы как основание статистической группировки при проведении дисперсионного анализа, который позволяет установить  взаимосвязь между переменными, измеренными например в номинативной и  интервальной  шкалах.

 
Исключением в некоторых ситуациях  являются номинативные дихотомные (принимающие альтернативные значения) переменные. Значения этих переменных можно закодировать нулем  и единицей.

Например, при аудиторской  проверке банковских счетов, счет может  быть оформлен верно, или неверно. Верно оформленные счета («удача») кодируем цифрой  «0», а неверно оформленные («неудача») – цифрой «1».

Если  для дихотомной случайной величины вероятность «удачи»    остается постоянной в     повторных испытаниях, то вероятность           успехов в этой серии (выборке) определяется биноминальным распределением,  которое при      аппроксимируется нормальным распределением с математическим ожиданием  частоты  «удачи»     и дисперсией  частоты  .

Все это служит основанием того, что для дихотомных  номинативных переменных возможно как интервальное оценивание, так и применения метода  испытания статистических гипотез, например, для сравнения математических ожиданий для двух различных выборок.

Порядковая шкала применяется, если переменная выражает степень проявления какого либо свойства, и ее значения могут быть упорядочены. Например, при обработке анкеты социологического опроса можно использовать порядковую шкалу для  кодировании ответов на вопрос  о том, представляется ли предлагаемая работа интересной

- очень интересная –3; 

- интересная – 2;

- мало интересная – 1; 

- совершенно неинтересная –0.

В этом случае между значениями переменных можно установить отношения  порядка. Очевидно, что интересная работа  более привлекательна, чем малоинтересная. Таким образом, вариационный ряд уже можно ранжировать, а значит есть возможность определить медиану и моду распределения.

Для переменных относящихся к порядковой шкале измерений  может исчисляться ранговый коэффициент корреляции, а для сравнения различных выборок могут применяться непараметрические тесты, формулы для которых оперируют рангами.

Интервальная шкала предполагает, что можно определить не только порядок  значений, но и расстояние между  значениями. Эта шкала, однако, такова, что не имеет смысла рассматривать, во сколько раз одно значение больше другого.

Примером может служить  шкала измерения температуры  по Цельсию или Фаренгейту (принятая в США).

Очевидно, что понятие  разности температур можно определить и оно имеет смысл, а  отношение температур – величина лишенная всякого смысла.

Действительно, если  утром температура была +10C , а днем поднялась до  60C, то можно сказать, что она стала выше на 5 градусов, но нельзя сказать, что стало теплее в 6 раз.

Переменные интервальной шкалы могут обрабатываться  любыми статистическими методами  без ограничений.

Шкала отношении. Для переменных, измеренных в этой шкале, определены все арифметические и логические операции, которые можно производить с числовыми переменными. Например, мы можем смело заявить, что зарплата в 10 000 руб. вдвое выше зарплаты в 5 000 руб.

К шкале отношений относятся  и интервальные величины, которые  имеют абсолютную нулевую точку (например, абсолютная температура, измеренная в шкале Кельвина). При статистическом анализе в SPSS переменные, относящиеся  к  интервальной шкале и шкале отношений,  обычно не различаются.

Типы возможных операций для данных. измеренных в разных шкалах приведены в таблице ниже.

 

Кластерный анализ

 
Кластерный анализ ставит перед  собой задачу классификации объектов. Синонимами термина «кластерный  анализ» являются «автоматическая  классификация объектов без учителя» и «таксономия».

Если данные понимать как  точки в признаковом пространстве, то задача кластерного анализа формулируется  как группировка объектов в многомерном  признаковом пространстве, разбиение  совокупности на однородные подмножества объектов. 

В этом смысле по своим задачам  кластерный анализ похож на дискриминантный анализ, но последний для целей классификации использует обучающие выборки, на основании которых строится дискриминантная функция, позволяющая классифицировать новые объекты.

Другой, возможностью  кластерного анализа (более редко используемой), является классификация переменных, т. е. поиск переменных, которые близки по своему смыслу.

Классификация переменных  в кластерном анализе преследует  фактически те же цели, что и факторный анализ, о котором речь пойдет позднее, – сокращения числа переменных. Если переменные оказались близкими (попали в один кластер), то можно оставить для дальнейшего анализа одну из них, удалив из набора данных другие.

 
Использование факторного анализа  предпочтительнее, если переменные относится  к интервальной шкале, Кластерный анализ переменных с целью анализа их близости обычно применяют, если переменные относятся к дихотомической  шкале.

 
PASW предлагает для использования  три различных алгоритма кластерного  анализа: двухшаговый кластерный анализ, иерархический кластерный анализ и итерационный метод, известный как метод К-средних.

Более подробно эти методы будут обсуждаться  при  решении конкретных практических задач. Здесь мы лишь отметим, что двухшаговый метод кластерного анализа имеет, пожалуй, лишь одно достоинство: анализируемые переменные могут относиться к интервальной и номинативной шкалам.

Иерархический кластерный анализ используется в тех случаях, когда  число случаев невелико (несколько  сотен)  или когда нужно произвести кластерный анализ переменных.

Метод К-средних используется при достаточно большом числе случаев, когда переменные относятся к интервальной шкале.

В кластерном анализе классификация  объектов производится на основании  понятия расстояния между объектами  в многомерном признаковом пространстве, а классификация переменных на основании  понятия схожести переменных.

Поскольку в этом анализе  могут участвовать переменные, измеренные в номинативной, порядковой дихотомической шкалах, возникает неоднозначная  проблема определения расстояния между  объектами. Для каждого из видов  шкал измерения PASW предлагает несколько  различных способов определения  расстояния между объектами.

Чаще всего можно, не вдаваясь в детали, ограничиться способом определения  расстояния, которое предлагается по умолчанию. 
Обозначим, как и ранее, символом  , значение  -го признака для  -го объекта.

Для переменных принадлежащих к интервальной шкале PASW предлагает восемь различных способов определения расстояния между объектами. Например, можно определить евклидово расстояние   между объектами    и  , обобщая запись для расстояния между двумя точками на плоскости:

По умолчанию при проведении кластерного анализа в PASW в качестве меры расстояния между объектами  используется квадрат евклидового  расстояния.

Благодаря возведению в квадрат  меры (1) различие между объектами  получается существенно больше, что облегчает проведение анализа.

Различные способы определения  расстояния между объектами приводят и к различной конечной классификации  объектов. Поэтому решение задачи классификации объектов в кластерном анализе не является однозначным.

Такая же ситуация имеется  при обычной группировке, где результат группировки зависит от  способа определения интервала группировки.

Другим образом определяется расстояние между объектами, если значения переменных представляют собой частоты. В этом случае в качестве меры расстояния между объектами SPSS  предлагает использовать либо  величину   хи-квадрат либо связанную с ней меру

,

где -число объектов. Величина хи-квадрат вычисляется для каждой пары объектов на основании таблиц сопряженности. Например, если при классификации районов города по числу магазинов для Верхисетского и Октябрьского районов получены  следующие значения,

то расстояние между этими  районами в признаковом простанстве на основе меры  хи-квадрат будет вычисляться по формуле

,

где суммирование производится по ячейкам таблицы, а    наблюдаемые и  расчетные значения чисел  магазинов различных типов в районах.

Рассчетные значения получаются, исходя из предположения, что районы не различаются по распределению магазинов. 

В итоге в рассматриваемом  случае мера хи-квадрат оказывается равной 3,08.

Иерархический кластерный анализ

 
Самым распространенным методом кластерного  анализа является иерархический  кластерный анализ. Сущность его состоит  в том, что на первом шаге каждый объект выборки рассматривается  как  отдельный кластер.

Затем по исходным данным вычисляется  матрица расстояний между всеми  объектами статистической совокупности. Процесс объединения кластеров  происходит последовательно: отыскиваются два объекта, расстояние между которыми является наименьшим, и они объединяются в один кластер.

Затем отыскивается следующий  объект, расстояние до которого от объектов, включенных в первый кластер, является наименьшим, и он присоединяется к  первому кластеру.

Процесс продолжается до тех  пор, пока не будет получен один кластер. Описанная процедура геометрически  изображается в виде дендрограммы, на которой изображается последовательность шагов объединения исходных объектов в один кластер.

Для иллюстрации сказанного рассмотрим небольшой пример. Пусть  имеется  четыре объекта, для которых рассчитана матрица евклидовых расстояний, представленная в таблице ниже. 

Информация о работе Переходим к изучению материала и проверке знаний