Автор работы: Пользователь скрыл имя, 11 Октября 2013 в 13:01, доклад
Метод главных компонент (англ. Principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotelling transform). Метод основан на нахождении собственных чисел и собственных векторов корреляционной матрицы с последующим взвешиванием компонентов собственных векторов.
Метод главных компонент
Метод главных компонент (англ. Principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve) или преобразованием Хотеллинга (англ. Hotelling transform). Метод основан на нахождении собственных чисел и собственных векторов корреляционной матрицы с последующим взвешиванием компонентов собственных векторов. Эти компоненты после соответствующего взвешивания дают значения коэффициентов корреляции с независимыми факторами, представленными через линейную комбинацию значений исследуемых случайных величин. Комбинации находятся таким образом, что представляют собой оси ортогональной системы координат и являются независимыми друг от друга. Метод имеет большие перспективы в минералогии, геохимии, палеонтологии и т. п. во всех случаях, когда можно предполагать, что значения случайной величины флюктуируют под воздействием ограниченного числа причин и эти причины могут быть выражены через исследуемые случайные величины.
Формальная постановка задачи
Задача анализа главных компонент имеет, как минимум, четыре базовых версии:
- аппроксимировать
данные линейными
- найти подпространства
меньшей размерности, в
- найти подпространства
меньшей размерности, в
- для данной
многомерной случайной
Первые три
версии оперируют конечными
В статистике при использовании метода главных компонент используют несколько специальных терминов.
Матрица данных ;каждая строка — вектор предобработанных данных (центрированных и правильно нормированных), число строк — (количество векторов данных), число столбцов — (размерность пространства данных);
Матрица нагрузок (Loadings) ; каждый столбец — вектор главных компонент, число строк — (размерность пространства данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
Матрица счетов (Scores) ; каждая строка — проекция вектора данных на главных компонент; число строк — (количество векторов данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
Матрица Z-счетов (Z-scores) ; каждая строка — проекция вектора данных на главных компонент, нормированная на единичную выборочную дисперсию; число строк — (количество векторов данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
Матрица ошибок (или остатков) (Errors or residuals) .
Основная формула:
Пределы применимости и ограничения эффективности метода
Метод главных
компонент применим всегда. Распространённое
утверждение о том, что он применим
только к нормально распределённым
данным (или для распределений, близких
к нормальным) неверно: в исходной
формулировке К. Пирсона ставится задача
об аппроксимации конечного
Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность . Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности. Для работы с такими «кривыми» главными компонентами изобретен метод главных многообразий и различные версии нелинейного метода главных компонент. Больше неприятностей могут доставить данные сложной топологии. Для их аппроксимации также изобретены различные методы, например самоорганизующиеся карты Кохонена, нейронный газ или топологические грамматики. Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам, которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.
Примеры использования
Визуализация данных
Визуализация данных — представление в наглядной форме данных эксперимента или результатов теоретического исследования.
Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент (или 3-мерное пространство первых трёх главных компонент). Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трех отношениях:
Визуализация
данных является одним из наиболее
широко используемых приложений метода
главных компонент и его
Компрессия изображений и видео
Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.
Подавление шума на изображениях
Основная суть метода — при удалении шума из блока пикселей представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.
Индексация видео
Основная идея — представить при помощи PCA каждый кадр видео несколькими значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Столь существенная редукция данных позволяет значительно увеличить скорость работы и устойчивость к ряду искажений в видео.
Биоинформатика
Метод главных компонент интенсивно используется в биоинформатике для сокращения размерности описания, выделения значимой информации, визуализации данных и др. Один из распространённых вариантов использования — анализ соответствий (англ. Correspondence Analysis).
Хемометрика
Метод главных компонент — один из основных методов в хемометрике (англ. Chemometrics). Позволяет разделить матрицу исходных данных X на две части: «содержательную» и «шум». По наиболее популярному определению «Хемометрика — это химическая дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных».
Психодиагностика
Психодиагностика
является одной из наиболее разработанных
областей приложения метода главных
компонент. Стратегия использования
основывается на гипотезе об автоинформативности
экспериментальных данных, которая
подразумевает, что диагностическую
модель можно создать путем
Общественные науки
Метод главных компонент — один из основных инструментов эконометрики. Он применяется для:
-
наглядного представления
-
обеспечения лаконизма моделей,
-
сжатия объемов хранимой
Метод
обеспечивает максимальную информативность
и минимальное искажение
В
политологии метод главных
Сокращение размерности динамических моделей
Проклятие
размерности (англ. Curse of dimensionality) затрудняет
моделирование сложных систем. Сокращение
размерности модели — необходимое
условие успеха моделирования. Для
достижения этой цели создана разветвленная
математическая технология. Метод главных
компонент также используется в
этих задачах (часто под названием
истинное или собственное ортогональное
разложение — англ. proper orthogonal decomposition
(POD)). Например, при описании динамики
турбулентности динамические переменные
— поле скоростей — принадлежат
бесконечномерному пространству (или,
если представлять поле его значениями
на достаточно мелкой сетке, — конечномерному
пространству большой размерности).
Можно набрать большую
Литература:
http://ru.wikipedia.org