Автор работы: Пользователь скрыл имя, 18 Октября 2013 в 18:38, реферат
Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками.
1. Введение………………………………………………………………….…3
2. Реферативная справка……………………………………………………...5
3. Отбор факторов для корреляционного анализа……………………..…...9
4. Постановка задачи………………………………………………………...11
5. Пример…………………………………………………………………..…12
6. Выводы………………………………………………………………….…19
7. Список использованной литературы………………………………….…20
Пример
Исследование зависимости
между среднемесячными
X |
4,8 |
3,8 |
5,4 |
4,2 |
3,4 |
4,6 |
3,4 |
4,8 |
5,0 |
3,8 |
5,2 |
4,0 |
3,8 |
4,6 |
4,4 |
Y |
75 |
68 |
78 |
71 |
64 |
73 |
66 |
75 |
75 |
65 |
77 |
69 |
67 |
72 |
70 |
Построить корреляционное поле
и сделать предварительный
Решение. Корреляционное поле, построенное по статистическим данным, приведено на рис.1.
Анализ рис. 1. позволяет сделать вывод о наличии сильной линейной статистической связи между среднемесячными доходами семьи и затратами на приобретение ею кондитерских изделий. При этом связь имеет положительную тенденцию, т.е. с ростом переменной X наблюдается увеличение отклика Y.
При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы.
Пример 2: По 20 туристическим фирмам были установлены затраты X на рекламу и количества туристов Y, воспользовавшихся услугами каждой фирмы. В таблице фирмы ранжированы по величине затрат на рекламу:
Порядковый номер фирмы |
Затраты на рекламу, усл.ден.ед. |
Количество туристов, воспользовавшихся услугами фирмы, чел. |
1 |
8 |
800 |
2 |
8 |
850 |
3 |
8 |
720 |
4 |
9 |
850 |
5 |
9 |
800 |
6 |
9 |
880 |
7 |
9 |
950 |
8 |
9 |
820 |
9 |
10 |
900 |
10 |
10 |
1000 |
11 |
10 |
920 |
12 |
10 |
1060 |
13 |
10 |
950 |
14 |
11 |
900 |
15 |
11 |
1200 |
16 |
11 |
1150 |
17 |
11 |
1000 |
18 |
12 |
1200 |
19 |
12 |
1100 |
20 |
12 |
1000 |
Построить корреляционную таблицу
и сделать предварительный
Решение. Исходные данные, ранжированные по величине затрат на рекламу, уже могут быть использованы при ответе на вопрос о наличии или отсутствии корреляционной связи. Этот простейший прием обнаружения связи называется сопоставлением двух параллельных рядов. Согласно этому элементарному приему, значения факторного признака X располагают в неубывающем порядке и затем прослеживают направление изменения результативного признака Y.
По таблице можно видеть,
что в целом для всей совокупности
фирм увеличение затрат на рекламу
приводит к увеличению количества туристов,
пользующихся услугами фирмы. Хотя в
отдельных случаях наличие
Однако наличие большого
числа различных значений результативного
признака, соответствующих одному и
тому же значению признака-фактора, затрудняет
восприятие таких параллельных рядов.
Особенно это сказывается при
большом числе единиц, составляющих
изучаемую совокупность. В таких
случаях целесообразнее воспользоваться
для установления факта наличия
связи корреляционной таблицей. Построение
корреляционной таблицы начинают с
группировки значений факторного и
результативного признаков. Поскольку
в приводимом примере факторный
признак представлен всего
В корреляционной таблице факторный признак X, как правило, располагают в строках, а результативный признак Y – в столбцах таблицы. Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту повторения данного значения X и Y:
Данная корреляционная таблица
уже при общем знакомстве дает
возможность выдвинуть
Необходимо подчеркнуть, что при рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, когда все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство еще не означает, что корреляционная связь между признаками отсутствует. Нужно установить, как расположена в таблице основная масса частот. Для того, чтобы сделать восприятие корреляционной таблицы более доступным и в целях более четкого выявления основной тенденции связи, можно для каждой строки рассчитать средние значения результативного признака Y, соответствующие определенному значению признака-фактора X. Так, в рассматриваемом примере среднее число туристов для первой группы, состоящей из трех фирм, которые тратят на рекламу 8 усл. ден. ед., будет равно 800 человек:
Для следующей группы, состоящей из пяти фирм, у которых затраты на рекламу 9 усл. ден. ед.
и т.д. (рассчитанные таким образом средние представлены в последнем столбце корреляционной таблицы).
Итак, увеличение средних значений результативного признака с увеличением значений факторного признака еще раз свидетельствует о возможном наличии прямой корреляционной зависимости числа туристов, воспользовавшихся услугами фирмы, от затрат фирмы на рекламу.
Корреляционная таблица позволяет сжато, компактно изложить материал. Поэтому все последующие расчеты можно вести по корреляционной таблице.
Выборочный коэффициент корреляции Пирсона для группированной корреляционной таблицы определяется формулой:
где
– выборочная ковариация; и – центры соответствующих интервалов группировки;
, ,
, (3)
– соответствующие выборочные дисперсии.
Для выборочной ковариации справедлива формула
являющаяся аналогом формулы в теории вероятностей. Для простой (негруппированной) выборки формулы (6.2) – (6.4) упрощаются и приобретают вид:
Выборочный коэффициент корреляции обладает всем свойствами, которыми обладает теоретико-вероятностный коэффициент корреляции . В частности, для любой выборки .
При этом, чем ближе к 1 (или к ), тем сильнее выражена линейная зависимость между X и Y. Однако значимость такой зависимости должна быть
подкреплена проверкой гипотезы. Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза – отсутствие линейной статистической связи ( ); альтернативной гипотезой может выступать любая из трех возможных
В тех случаях, когда справедливо предположение о нормальном распределении двумерного генерального вектора , подходящей статистикой для проверки основной гипотезы является статистика Стъюдента
где обозначено – выборочный коэффициент корреляции, а объем n выборки предполагается большим (число степеней свободы равно ).
Выводы
Список использованной литературы