Идентификация базы данных стекла

Автор работы: Пользователь скрыл имя, 16 Января 2014 в 07:07, курсовая работа

Описание работы

Задача классификации типов стекла используется в криминологических исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно идентифицировано!
База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:
Показатель преломления стекла

Содержание работы

Постановка задачи 2
Анализ данных 3
Снижение размерности. Метод главных компонент 4
Определение числа классов 6
Классификация методом k-means. Результаты классификации. 7
Заключение 12
Список использованных источников 13

Файлы: 1 файл

Курсовая задача классификаци.docx

— 146.04 Кб (Скачать файл)

 

 

 

 

 

 

 

Курсовая работа по методам кластерного анализа

«Идентификация  базы данных стекла»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Содержание

Постановка  задачи 2

Анализ данных 3

Снижение  размерности. Метод главных компонент 4

Определение числа классов 6

Классификация методом k-means. Результаты классификации. 7

Заключение 12

Список использованных источников 13

 

 

 

 

 

 

 

 

 

 

 

Постановка задачи

Задача классификации  типов стекла используется в криминологических  исследованиях. В сцене преступления оставленное стекло может быть использовано в качестве улики…. Если оно правильно  идентифицировано!

База данных стекла включает в себя 214 случаев и 7 признаков, по которым ведется классификация:

  1. Показатель преломления стекла

Процентное содержание в  образцах таких элементов как:

  1. Na (натрий)
  2. Mg (магний)
  3. Al (алюминий)
  4. Si (кремний)
  5. K (калий)
  6. Сa (кальций)

Выборочные данные принадлежат  следующим классам стекла:

    1. Оконное стекло ( float)
    2. Оконное стекло ( non-float)
    3. Автомобильное стекло (float)
    4. Стекло для контейнеров
    5. Столовое стекло
    6. Стекло фар автомобиля

 

Цель классификации –  по выборочным данным идентифицировать к какому классу относится каждый образец стекла.

 

Для классификации объектов был использован пакет STATISTICA, а также алгоритмы, запрограммированные в среде MathCad 14.

 

Анализ данных

 

В распоряжении имеются выборочные данные объема 214. Объекты характеризуются 7 признаками, каждый из которых измерен в количественной шкале. Пропуски данных отсутствуют.

Следует заметить, что значения признаков не сравнимы друг с другом. Приведение к единому масштабу обеспечивается нормировкой каждого признака.

                                       

Получили выборку, каждое значение которой попадает в единичный отрезок:

Работа в пространстве 6 переменных затруднительна, не только с точки зрения геометрического представления пространственного расположения точек, но и в связи с наличием коррелирующих между собой признаков.

Таким образом, исследователю  выгодно уменьшить размерность  пространства.  Рассмотрим матрицу ковариаций:

Полученный результат, дает нам основание утверждать, к примеру, что признак 7 коррелирует со всеми остальными. Следовательно, его можно исключить из нашей классификации. А первый признак коррелирует со всеми кроме 3 признака.

Для снижения размерности  пространства с сохранением информативности  выборочных данных применим метод главных компонент.

Снижение размерности. Метод главных компонент

 

Для реализации данного метода будем оперировать центрированными  данными. Путем линейного преобразования:

 

получаем интересующую нас выборку. Стоит заметить, что данное преобразование не влияет на вид матрицы ковариаций.

 Далее, следуя алгоритму метода, находим  собственные числа матрицы ковариаций. В пакете MathCad14 данная операция  легко  осуществима с помощью встроенной функции eigenvals:

 

Компонента есть линейная комбинация , где – собственный вектор матрицы , соответствующий k-ому по величине собственному значению этой матрицы.

В пакете MathCad 14 находим собственные векторы l, используя функцию eigenvecs:



 

Столбцы матрицы l соответствуют собственным значениям вектора .

Вычислим относительную  долю суммарной дисперсии, обусловленной  одной, двумя и тремя главными компонентами:

.

Таким образом, более половины информации содержится в двух первых главных компонентах. Их и будем  использовать для классификации, так  как неотъемлемым достоинством двумерного пространства является наглядность  геометрической интерпретации.

Путем описанного выше преобразования получим две первые главные компоненты и обратимся к пространственному  расположению точек:

 

 

 

 

 

 

 

 

 

Определение числа  классов

 

Исходя из геометрического  расположения точек, можно заключить, что выборочные данные можно классифицировать на два кластера.

С помощью алгомеративных иерархических алгоритмов получим предпочтительное число классов.

Для нахождения расстояния между классами использовался метод  Уорда. Мера расстояния между объектами  – метрика Чебышева. Оптимальное число классов: 2 или 3.

 

Во втором случае расстояния между классами найдены по методу «средней связи». Мера расстояния между  объектами – евклидова метрика.


Данный алгоритм был использован  для нахождения мажоранты для  величины k – числа классов. Положим kmax = 6.

Классификация методом  k-means. Результаты классификации.

 

Рассмотрим параллельный алгоритм k-means.

Положим число  классов k равным 3.

Построим минимальное дистанционное  разбиение.

 

Так как в наличие имеются  сведения об истинной принадлежности объектов классам, проверим качество классификации  рассмотренного алгоритма.

Для того чтобы посчитать  ошибку классификации в данном случае, разделим известные нам истинные классы на три группы:

    1. Оконное стекло (float)+ автомобильное стекло (float)
    2. Оконное стекло (non-float)
    3. Стекло для контейнеров + столовое стекло + стекло фар автомобиля

При этом, реальная картинка пространственного расположения точек, распределенных на три группы классов выглядела бы следующим образом:

На графике выше, синим  цветом обозначены центры классов полученные в результате классификации методом k-средних. Зеленым обозначены истинные центры групп классов.

Определим качество разбиения  как относительное число неправильных классификаций:

 

 

Оценивая результаты работы алгоритма в данном случае можно  сказать, что правильная принадлежность к группам классов была определена с ошибкой 51%. Это можно объяснить смешанностью точек, принадлежащих разным классам, что видно на графике. При этом 60 из 87 точек, принадлежащих первой группе классов, были определены правильно. А для третьей группы классов 7 из 50.

Положим число  классов k равным 2.

Построим минимальное  дистанционное разбиение.

В этом случае разделим истинные классы на две группы классов:

    1. Оконное стекло (float)+ автомобильное стекло (float)+ оконное стекло (non-float)
    2. Стекло для контейнеров + столовое стекло + стекло фар автомобиля.

Заметим, что при таком  распределении классов на группы, центры истинных классов расположены  близко к центрам, полученным в результате работы алгоритма.

Ошибка такой классификации методом k-средних составила 6%. При этом к первой группе классов были правильно отнесены 151 из 163 точек. Ко второй группе классов 43 из 50 точек.

Положим число  классов k равным 6.

Построим минимальное дистанционное  разбиение.

 

В таком случае истинное число разбиений на классы совпадает  с предполагаемым. Однако, расположение истинных центров классов существенно отличается от расположения центров классов, полученных в результате работы алгоритма.

Ошибка классификации  составила 60,2%. Но по отношению к  некоторым классам классификация  была проведена успешно. 5 из 9 точек были правильно соотнесены к пятому классу, 22 из 29 к 6 классу и 39 из 76 ко второму классу.

 

 

Заключение

 

В результате проделанной  работы я сделала следующие выводы:

  1. Проводить классификацию по 6 классам в рамках этой задачи неприемлемо, т.к алгоритм k-средних дает большую ошибку. Это объясняется малым различием объектов разных классов по приведенным признакам.
  2. Для повышения эффективность алгоритма k-средних следует проводить классификацию по  другим признакам, которые бы давали как можно более четкое распределение по классам, т.к. ошибки в области криминалистики приводят к непредсказуемым последствиям.
  3. В задаче следует проводить более обобщенную классификацию во избежание ошибок. Так, объединив классы оконное стекло (float)+ автомобильное стекло (float)+ оконное стекло (non-float) и классы стекло для контейнеров + столовое стекло + стекло фар автомобиля в два новых класса, можно решить задачу с точностью в 94%.

 

 

 

 

 

 

 

 

 

 

 

 

Список использованных источников

 

  1. Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян, В. М. Бухштаберб, И. С. Енюков, Л. Д. Мешалкин: Под ред. С. А. Айвазяна. – М.: Финансы и статистика, 1989. – 607 с.: ил.
  2. Методы кластерного анализа: метод. указания к выполнению лаб. работ для бакалавров направления 220100 «Системный анализ и управление» очной формы обучения / сост. Е. А. Попов ; Сиб. гос. аэрокосмич. ун-т. – Красноярск, 2010. – 36 с.
  3. http://archive.ics.uci.edu/ml/machine-learning-databases/glass/

 


Информация о работе Идентификация базы данных стекла