Корреляция

Автор работы: Пользователь скрыл имя, 24 Декабря 2012 в 11:27, реферат

Описание работы

Корреляция представляет собой меру зависимости переменных. Наиболее известна корреляция Пирсона. При вычислении корреляции Пирсона предполагается, что переменные измерены, как минимум, в интервальной шкале. Некоторые другие коэффициенты корреляции могут быть вычислены для менее информативных шкал.

Файлы: 1 файл

Корреляции.docx

— 200.21 Кб (Скачать файл)

Например, если среднее (или стандартное отклонение) значений переменной A, которое использовалось при вычислении ее корреляции с переменной B, много меньше среднего (или стандартного отклонения) тех же значений переменной A, которые использовались при вычислении ее корреляции с переменной C, то имеются  все основания ожидать, что эти  две корреляции (A-B и A-C) основаны на разных подмножествах данных, и, таким  образом, в оценках корреляций имеется сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

 

 

Попарное удаление пропущенных данных в сравнении  с подстановкой среднего значения

 

 Другим общим методом, позволяющим избежать потери наблюдений при построчном способе удаления наблюдений с пропусками, является замена средним (для каждой переменной пропущенные значения заменяются средним  значением этой переменной). Подстановка  среднего вместо пропусков имеет  свои преимущества и недостатки в  сравнении с попарным способом удаления пропусков. Основное преимущество в  том, что он дает состоятельные оценки, однако имеет следующие недостатки:

  1. Подстановка среднего искусственно уменьшает разброс данных, иными словами, чем больше пропусков, тем больше данных, совпадающих со средним значением, искусственно добавленным в данные.

  1. Так как пропущенные данные заменяются искусственно созданными "средними", то корреляции могут сильно уменьшиться.

 

 

Ложные корреляции

 

 Основываясь на коэффициентах  корреляции, вы не можете строго доказать причинной зависимости между  переменными, однако можете определить ложные корреляции, т.е. корреляции, которые  обусловлены влияниями "других", остающихся вне вашего поля зрения переменных. Лучше всего понять ложные корреляции на простом примере. Известно, что существует корреляция между  ущербом, причиненным пожаром, и  числом пожарных, тушивших пожар.

Однако  эта корреляция ничего не говорит  о том, насколько уменьшатся потери, если будет вызвано меньше число  пожарных. Причина в том, что имеется  третья переменная (начальный размер пожара), которая влияет как на причиненный  ущерб, так и на число вызванных  пожарных.

Если  вы будете "контролировать" эту  переменную (например, рассматривать  только пожары определенной величины), то исходная корреляция (между ущербом  и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак. Основная проблема ложной корреляции состоит  в том, что вы не знаете, кто является ее агентом. Тем не менее, если вы знаете, где искать, то можно воспользоваться  частные корреляции, чтобы контролировать (частично исключенное) влияние определенных переменных.

 

 

Являются ли коэффициенты корреляции "аддитивными"?

Нет, не являются. Например, усредненный коэффициент  корреляции, вычисленный по нескольким выборкам, не совпадает со "средней  корреляцией" во всех этих выборках. Причина в том, что коэффициент  корреляции не является линейной функцией величины зависимости между переменными. Коэффициенты корреляции не могут быть просто усреднены.

Если  вас интересует средний коэффициент  корреляции, следует преобразовать  коэффициенты корреляции в такую  меру зависимости, которая будет  аддитивной. Например, до того, как усреднить  коэффициенты корреляции, их можно  возвести в квадрат, получить коэффициенты детерминации, которые уже будут  аддитивными, или преобразовать  корреляции в z значения Фишера, которые  также аддитивны.

 

 

Как определить, являются ли два коэффициента корреляции значимо  различными

Имеется критерий, позволяющий оценить значимость различия двух коэффициентов корреляциями. Результат применения критерия зависит  не только от величины разности этих коэффициентов, но и от объема выборок и величины самих этих коэффициентов.

В соответствии с ранее обсуждаемыми принципами, чем больше объем выборки, тем  меньший эффект мы можем значимо  обнаружить. Вообще говоря, в соответствии с общим принципом, надежность коэффициента корреляции увеличивается с увеличением  его абсолютного значения, относительно малые различия между большими коэффициентами могут быть значимыми.

Например, разница .10 между двумя корреляциями может не быть значимой, если коэффициенты равны .15 и .25, хотя для той же выборки  разность 0.10 может оказаться значимой для коэффициентов .80 и .90.

В начало




 

 

 


Информация о работе Корреляция