Метод главных компонент

Автор работы: Пользователь скрыл имя, 11 Октября 2013 в 13:01, доклад

Описание работы

Метод главных компонент (англ. Principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotelling transform). Метод основан на нахождении собственных чисел и собственных векторов корреляционной матрицы с последующим взвешиванием компонентов собственных векторов.

Файлы: 1 файл

Метод главных компонент.docx

— 40.28 Кб (Скачать файл)

Метод главных  компонент

Метод главных  компонент (англ. Principal component analysis, PCA) —  один из основных способов уменьшить  размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется  во многих областях, таких как распознавание  образов, компьютерное зрение, сжатие данных и т. п. Иногда метод главных  компонент называют преобразованием  Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotelling transform).  Метод основан на нахождении собственных чисел и собственных векторов корреляционной матрицы с последующим взвешиванием компонентов собственных векторов. Эти компоненты после соответствующего взвешивания дают значения коэффициентов корреляции с независимыми факторами, представленными через линейную комбинацию значений исследуемых случайных величин. Комбинации находятся таким образом, что представляют собой оси ортогональной системы координат и являются независимыми друг от друга. Метод имеет большие перспективы в минералогии, геохимии, палеонтологии и т. п. во всех случаях, когда можно предполагать, что значения случайной величины флюктуируют под воздействием ограниченного числа причин и эти причины могут быть выражены через исследуемые случайные величины.

Формальная  постановка задачи

Задача анализа  главных компонент имеет, как  минимум, четыре базовых версии:

- аппроксимировать  данные линейными многообразиями  меньшей размерности;

- найти подпространства  меньшей размерности, в ортогональной  проекции на которые разброс  данных (то есть среднеквадратичное  отклонение от среднего значения) максимален;

- найти подпространства  меньшей размерности, в ортогональной  проекции на которые среднеквадратичное  расстояние между точками максимально;

- для данной  многомерной случайной величины  построить такое ортогональное  преобразование координат, что  в результате корреляции между  отдельными координатами обратятся  в ноль.

Первые три  версии оперируют конечными множествами  данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая версия оперирует случайными величинами. Конечные множества появляются здесь как  выборки из данного распределения, а решение трёх первых задач —  как приближение к «истинному»  преобразованию Кархунена-Лоэва. При  этом возникает дополнительный и  не вполне тривиальный вопрос о точности этого приближения.

В статистике при использовании метода главных  компонент используют несколько  специальных терминов.

Матрица данных ;каждая строка — вектор предобработанных данных (центрированных и правильно нормированных), число строк — (количество векторов данных), число столбцов —   (размерность пространства данных);

 

Матрица нагрузок (Loadings) ; каждый столбец — вектор главных компонент, число строк —   (размерность пространства данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);

Матрица счетов (Scores) ; каждая строка — проекция вектора данных на главных компонент; число строк — (количество векторов данных), число столбцов —   (количество векторов главных компонент, выбранных для проецирования);

Матрица Z-счетов (Z-scores) ; каждая строка — проекция вектора данных на   главных компонент, нормированная на единичную выборочную дисперсию; число строк — (количество векторов данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);

Матрица ошибок (или остатков) (Errors or residuals) .

Основная  формула:

Пределы применимости и ограничения эффективности  метода

Метод главных  компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких  к нормальным) неверно: в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества  данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении.

Однако метод  не всегда эффективно снижает размерность  при заданных ограничениях на точность . Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности. Для работы с такими «кривыми» главными компонентами изобретен метод главных многообразий и различные версии нелинейного метода главных компонент. Больше неприятностей могут доставить данные сложной топологии. Для их аппроксимации также изобретены различные методы, например самоорганизующиеся карты Кохонена, нейронный газ или топологические грамматики. Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам, которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Примеры использования

Визуализация данных

Визуализация  данных — представление в наглядной  форме данных эксперимента или результатов  теоретического исследования.

Первым выбором  в визуализации множества данных является ортогональное проецирование  на плоскость первых двух главных  компонент (или 3-мерное пространство первых трёх главных компонент). Плоскость  проектирования является, по сути плоским  двумерным «экраном», расположенным  таким образом, чтобы обеспечить «картинку» данных с наименьшими  искажениями. Такая проекция будет  оптимальна (среди всех ортогональных  проекций на разные двумерные экраны) в трех отношениях:

  1. Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2. Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3. Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

Визуализация  данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений.

Компрессия изображений и видео

Для уменьшения пространственной избыточности пикселей при кодировании изображений  и видео используется линейные преобразования блоков пикселей. Последующие квантования  полученных коэффициентов и кодирование  без потерь позволяют получить значительные коэффициенты сжатия. Использование  преобразования PCA в качестве линейного  преобразования является для некоторых  типов данных оптимальным с точки  зрения размера полученных данных при  одинаковом искажении. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях

Основная  суть метода — при удалении шума из блока пикселей представить окрестность  этого блока в виде набора точек  в многомерном пространстве, применить  к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах  содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.

Индексация видео

Основная  идея — представить при помощи PCA каждый кадр видео несколькими  значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Столь  существенная редукция данных позволяет  значительно увеличить скорость работы и устойчивость к ряду искажений  в видео.

Биоинформатика

Метод главных компонент интенсивно используется в биоинформатике для сокращения размерности описания, выделения  значимой информации, визуализации данных и др. Один из распространённых вариантов  использования — анализ соответствий (англ. Correspondence Analysis).

Хемометрика

Метод главных компонент — один из основных методов в хемометрике (англ. Chemometrics). Позволяет разделить матрицу  исходных данных X на две части: «содержательную» и «шум». По наиболее популярному  определению «Хемометрика — это  химическая дисциплина, применяющая  математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных  методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных  данных».

Психодиагностика

Психодиагностика  является одной из наиболее разработанных  областей приложения метода главных  компонент. Стратегия использования  основывается на гипотезе об автоинформативности  экспериментальных данных, которая  подразумевает, что диагностическую  модель можно создать путем аппроксимации  геометрической структуры множества  объектов в пространстве исходных признаков. Хорошую линейную диагностическую  модель удается построить, когда  значительная часть исходных признаков  внутренне согласованна. Если эта  внутренняя согласованность отражает искомый психологический конструкт, то параметры линейной диагностической  модели (веса признаков) дает метод  главных компонент.

Общественные науки

Метод главных компонент — один из основных инструментов эконометрики. Он применяется  для:

- наглядного представления данных;

- обеспечения лаконизма моделей,  упрощения счета и интерпретации;

- сжатия объемов хранимой информации.

Метод обеспечивает максимальную информативность  и минимальное искажение геометрической структуры исходных данных. В социологии метод необходим для решения  первых двух основных задач:

  1. анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных);
  2. описание социальных явлений (построение моделей явлений, в том числе и математических моделей).

В политологии метод главных компонент  был основным инструментом проекта  «Политический Атлас Современности» для линейного и нелинейного  анализа рейтингов 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности  и демократии). Для картографии  результатов этого анализа разработана  специальная ГИС (Геоинформационная  система), объединяющая географическое пространство с пространством признаков. Также созданы карты данных политического атласа, использующие в качестве подложки двумерные главные многообразия в пятимерном пространстве стран. Отличие карты данных от географической карты заключается в том, что на географической карте рядом оказываются объекты, которые имеют сходные географические координаты, в то время как на карте данных рядом оказываются объекты (страны) с похожими признаками (индексами).

Сокращение  размерности динамических моделей

Проклятие размерности (англ. Curse of dimensionality) затрудняет моделирование сложных систем. Сокращение размерности модели — необходимое  условие успеха моделирования. Для  достижения этой цели создана разветвленная  математическая технология. Метод главных  компонент также используется в  этих задачах (часто под названием  истинное или собственное ортогональное  разложение — англ. proper orthogonal decomposition (POD)). Например, при описании динамики турбулентности динамические переменные — поле скоростей — принадлежат  бесконечномерному пространству (или, если представлять поле его значениями на достаточно мелкой сетке, — конечномерному пространству большой размерности). Можно набрать большую коллекцию  мгновенных значений полей и применить  к этому множеству многомерных  «векторов данных» метод главных  компонент. Эти главные компоненты называются также эмпирические собственные  векторы. В некоторых случаях (структурная  турбулентность) метод дает впечатляющее сокращение размерности. Другие области  применения этой техники сокращения динамических моделей чрезвычайно  разнообразны — от теоретических  основ химической технологии (англ. chemical engineering science) до океанологии и  климатологии.

Литература:

http://ru.wikipedia.org

 

 

 

 


Информация о работе Метод главных компонент