Корреляционный
анализ — метод обработки статистических данных, с помощью которого
измеряется теснота связи между двумя
или более переменными. Корреляционный
анализ тесно связан с регрессионным
анализом (также часто встречается термин
«корреляционно-регрессионный
анализ», который является более общим
статистическим понятием), с его помощью
определяют необходимость включения тех
или иных факторов в уравнение множественной
регрессии, а также оценивают полученное
уравнение регрессии на соответствие
выявленным связям (используякоэффициент
детерминации).[1][2]
[править]Ограничения корреляционного
анализа
Множество корреляционных полей.
Распределения значений
с соответствующими коэффициентами
корреляций для каждого из них. Коэффициент
корреляции отражает «зашумлённость»
линейной зависимости (верхняя строка),
но не описывает наклон линейной зависимости
(средняя строка), и совсем не подходит
для описания сложных, нелинейных зависимостей
(нижняя строка). Для распределения, показанного
в центре рисунка, коэффициент корреляции
не определен, так как дисперсия y равна нулю.
- Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон
больших чисел, который обеспечивает взаимопогашение случайных колебаний.[13]
- Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному
нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основекорреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.[14].
- Исходная совокупность значений должна быть качественно однородной.[13]
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.[5]
[править]Область применения
Данный метод
обработки статистических данных весьма
популярен в экономике и социальных
науках (в частности впсихологии и социологии), хотя сфера применения коэффициентов
корреляции обширна: контроль
качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных
отраслях приняты разные границы интервалов
для оценки тесноты и значимости связи.
Популярность
метода обусловлена двумя моментами:
коэффициенты корреляции относительно просты
в подсчете, их применение не требует специальной
математической подготовки. В сочетании
с простотой интерпретации, простота применения
коэффициента привела к его широкому распространению
в сфере анализа статистических данных.
[править]В селекции