Автор работы: Пользователь скрыл имя, 16 Января 2014 в 07:07, курсовая работа
Задача классификации типов стекла используется в криминологических исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно идентифицировано!
База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:
Показатель преломления стекла
Постановка задачи 2
Анализ данных 3
Снижение размерности. Метод главных компонент 4
Определение числа классов 6
Классификация методом k-means. Результаты классификации. 7
Заключение 12
Список использованных источников 13
Курсовая работа по методам кластерного анализа
«Идентификация базы данных стекла»
Содержание
Постановка задачи 2
Анализ данных 3
Снижение размерности. Метод главных компонент 4
Определение числа классов 6
Классификация методом k-means. Результаты классификации. 7
Заключение 12
Список использованных источников 13
Задача классификации типов стекла используется в криминологических исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно идентифицировано!
База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:
Процентное содержание в образцах таких элементов как:
Выборочные данные принадлежат следующим классам стекла:
Цель классификации – по выборочным данным идентифицировать к какому классу относится каждый образец стекла.
Для классификации объектов был использован пакет STATISTICA, а также алгоритмы, запрограммированные в среде MathCad 14.
В распоряжении имеются выборочные данные объема 214. Объекты характеризуются 7 признаками, каждый из которых измерен в количественной шкале. Пропуски данных отсутствуют.
Следует заметить, что значения признаков не сравнимы друг с другом. Приведение к единому масштабу обеспечивается нормировкой каждого признака.
Получили выборку, каждое значение которой попадает в единичный отрезок:
Работа в пространстве 6 переменных затруднительна, не только с точки зрения геометрического представления пространственного расположения точек, но и в связи с наличием коррелирующих между собой признаков.
Таким образом, исследователю выгодно уменьшить размерность пространства. Рассмотрим матрицу ковариаций:
Полученный результат, дает нам основание утверждать, к примеру, что признак 7 коррелирует со всеми остальными. Следовательно, его можно исключить из нашей классификации. А первый признак коррелирует со всеми кроме 3 признака.
Для снижения размерности пространства с сохранением информативности выборочных данных применим метод главных компонент.
Для реализации данного метода
будем оперировать
получаем интересующую нас выборку. Стоит заметить, что данное преобразование не влияет на вид матрицы ковариаций.
Далее, следуя алгоритму метода, находим
собственные числа матрицы
Компонента есть линейная комбинация , где – собственный вектор матрицы , соответствующий k-ому по величине собственному значению этой матрицы.
В пакете MathCad 14 находим собственные векторы l, используя функцию eigenvecs:
Столбцы матрицы l соответствуют собственным значениям вектора .
Вычислим относительную долю суммарной дисперсии, обусловленной одной, двумя и тремя главными компонентами:
.
Таким образом, более половины информации содержится в двух первых главных компонентах. Их и будем использовать для классификации, так как неотъемлемым достоинством двумерного пространства является наглядность геометрической интерпретации.
Путем описанного выше преобразования
получим две первые главные компоненты
и обратимся к
Исходя из геометрического расположения точек, можно заключить, что выборочные данные можно классифицировать на два кластера.
С помощью алгомеративных иерархических алгоритмов получим предпочтительное число классов.
Для нахождения расстояния между классами использовался метод Уорда. Мера расстояния между объектами – метрика Чебышева. Оптимальное число классов: 2 или 3.
Во втором случае расстояния между классами найдены по методу «средней связи». Мера расстояния между объектами – евклидова метрика.
Данный алгоритм был использован для нахождения мажоранты для величины k – числа классов. Положим kmax = 6.
Рассмотрим параллельный алгоритм k-means.
Положим число классов k равным 3.
Построим минимальное
Так как в наличие имеются сведения об истинной принадлежности объектов классам, проверим качество классификации рассмотренного алгоритма.
Для того чтобы посчитать ошибку классификации в данном случае, разделим известные нам истинные классы на три группы:
При этом, реальная картинка пространственного расположения точек, распределенных на три группы классов выглядела бы следующим образом:
На графике выше, синим цветом обозначены центры классов полученные в результате классификации методом k-средних. Зеленым обозначены истинные центры групп классов.
Определим качество разбиения
как относительное число
Оценивая результаты работы алгоритма в данном случае можно сказать, что правильная принадлежность к группам классов была определена с ошибкой 51%. Это можно объяснить смешанностью точек, принадлежащих разным классам, что видно на графике. При этом 60 из 87 точек, принадлежащих первой группе классов, были определены правильно. А для третьей группы классов 7 из 50.
Положим число классов k равным 2.
Построим минимальное дистанционное разбиение.
В этом случае разделим истинные классы на две группы классов:
Заметим, что при таком распределении классов на группы, центры истинных классов расположены близко к центрам, полученным в результате работы алгоритма.
Ошибка такой классификации методом k-средних составила 6%. При этом к первой группе классов были правильно отнесены 151 из 163 точек. Ко второй группе классов 43 из 50 точек.
Положим число классов k равным 6.
Построим минимальное
В таком случае истинное число разбиений на классы совпадает с предполагаемым. Однако, расположение истинных центров классов существенно отличается от расположения центров классов, полученных в результате работы алгоритма.
Ошибка классификации
составила 60,2%. Но по отношению к
некоторым классам
В результате проделанной работы я сделала следующие выводы: