Методика корреляционного анализа

Автор работы: Пользователь скрыл имя, 23 Октября 2013 в 17:10, контрольная работа

Описание работы

Возникновение статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п. Конечно для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат.

Содержание работы

Введение. 1
1. Понятие и виды корреляционной связи. 2
2. Анализ сущности изучаемого явления, проверка однородности первичной информации. 4
3. Установление факта наличия и направление корреляционной зависимости. 5
4. Оценка существенности корреляционной связи. 10
5. Множественная корреляционная зависимость. 12
6. Использование функций Excel при проведении корреляционного анализа. 14
Заключение. 20
Список литературы. 20

Скачать архив (255.00 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

129 -корреляция.docx

— 267.35 Кб (Скачать файл)

Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической связи, вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи.

Рассмотрим пример аналитической группировки валового регионального продукта и коэффициентов рождаемости по РФ в таблице 3.

Таблица 3.

Аналитическая группировка

Валовый региональный продукт, млн.руб.	Число областей	Сумма коэф-в рожд-ти	Средний коэф-т рождаемости
14-94	22	313,2	14,2
95-175	20	240,8	12,0
176-256	14	162,3	11,6
257-337	7	77,6	11,1
338-418	3	39,8	13,3
419-499	4	46,6	11,7
500-580	0	-	-
581-661	5	63,1	12,6
662-742	0	-	-
743-825	3	36,2	12,1
	78	979,6

По сгруппированным данным строится эмпирическая ломаная:

Рис.4. Эмпирическая линия.

Оценка существенности корреляционной связи.

Для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле:

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Линейный коэффициент корреляции может принимать значения от 0 ± 1 (знак (+) при прямой зависимости, (-) при обратной).

На практике руководствуются следующими оценками тесноты связи:

при r < 0,3 - связь слабая;

r = 0,3 - 0,7 - средняя;

r > 0,7 - сильная;

r = 0 - связь отсутствует;

r = 1 - связь функциональная.

Значимость линейного коэффициента корреляции проверяется на достоверность (надежность). Считается, что корреляционная связь является достоверной лишь при достаточном числе наблюдений (не менее 20 - 30). Проверка надежности коэффициента корреляции осуществляется с помощью критерия надежности по формуле:

где σ_r. среднеквадратическая ошибка коэффициента корреляции:

где n - число наблюдений.

Если t_r ≥ 3, то r считается надежным, а связь доказанной с вероятностью 0,997.

Если t_r < 3, связь нельзя считать достоверной.

Из формулы средней квадратической ошибки видно, что эта ошибка находится в обратной зависимости от числа наблюдений.

Для всех иных форм связи теснота ее может быть определена с помощью корреляционного отношения:

Где δ - дисперсия выровненных значений результатного признака ( y ):

σ - дисперсия фактических значений результатного признака ( y ):

Если δ² =σ² , значит η = 1и вариация y полностью зависит от вариации x .

Если δ² = 0 , значит вариация x никак не влияет на вариацию y и в этом случае η = 0 .

То есть, чем ближе η к 1, тем связь теснее, а чем ближе к нулю, тем слабее.

Если связь между признаками определяется методом аналитической группировки, то корреляционное отношение целесообразно определить соотношением межгрупповой и общей дисперсии, т.е.:

Где δ -

σ -

Множественная корреляционная зависимость.

Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции. Это позволяет произвести отбор факторов, включаемых в модель множественной зависимости.

Матрица имеет следующий вид:

При полном отсутствии корреляции между факторами матрица парных коэффициентов корреляции между факторами — просто единичная матрица, ведь все недиагональные элементы в этом случае равны нулю. Напротив, если между факторами имеется полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0. Следовательно, можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Чем ближе к 1 этот определитель, тем меньше мультиколлинеарность факторов.

Если известно, что параметры уравнения множественной регрессии линейно зависимы, то число объясняющих переменных в уравнении регрессии можно уменьшить на единицу. Если действительно использовать подобный прием, то можно повысить эффективность оценок регрессии. Тогда имевшаяся ранее мультиколлинеарность может быть смягчена. Даже если такая проблема и отсутствовала в исходной модели, то все равно выигрыш в эффективности может привести к улучшению точности оценок. Естественно, такое улучшение точности оценок отражается их стандартными ошибками. Сама линейная зависимость параметров называется также линейным ограничением.

Для измерения тесноты связи между изменениями величины результативного признака у и изменениями значений факторных признаков определяется коэффициент множественной корреляции, если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом:

Где ∆ - матрица парных коэффициентов корреляции;

∆^* - соответствует матрице парных коэффициентов корреляции ∆ без верхних строки и первого столбца.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Использование функций Excel при проведении корреляционного анализа.

В настоящее время можно использовать для проведения корреляционного анализа программные средства вычислительной техники. Рассмотрим порядок проведения корреляционного анализа с использованием функций Excel, в том числе пакет «Анализ данных».

Для построения корреляционного поля в командной строке выбираем меню Вставка/ Диаграмма. В появившемся диалоговом окне определяем тип диаграммы: Точечная; вид: Точечная диаграмма, позволяющая сравнить пары значений (Рис. 5).

Рис.5. Выбор типа диаграммы

Нажимаем кнопку Далее>. В появившемся диалоговом окне (Рис. 6) указываем диапазон значений, например = Лист1!A2:B26 и указываем расположение данных: в столбцах.

Рис. 6. Вид окна при выборе диапазона и рядов

Нажимаем кнопку Далее>. В следующем диалоговом окне (рис. 7) указываем название диаграммы, наименование осей. Нажимаем кнопку Далее>, и Готово.

Рис.7. Вид окна, шаг 3.

Таким образом, получаем корреляционное поле зависимости y от x. Далее добавим на графике линию тренда, для чего выполним следующие действия:

В области диаграммы щелкнуть левой кнопкой мыши по любой точке графика, затем щелкнуть правой кнопкой мыши по этой же точке. Появляется контекстное меню (рис. 8).

Рис.8. Вид окна, шаг 4

В контекстном меню выбираем команду Добавить линию тренда.

3. В появившемся диалоговом окне выбираем тип графика (в нашем примере линейная) и параметры уравнения, как показано на рис.9.

Рис.9. Установка параметров линии тренда

Нажимаем ОК. Результат представлен на рис.10.

Рис.10.Корреляционное поле зависимости производительности труда от фондовооруженности.

Аналогично строим корреляционное поле зависимости производительности труда от коэффициента сменности оборудования. (рис. 11).

Рис.11. Корреляционное поле зависимости производительности труда

от коэффициента сменности оборудования

Затем для построения корреляционной матрицы в меню Сервис выбираем Анализ данных.Необходимо проверить доступ к пакету анализа. В главном меню последовательно выбираем Сервис/ Надстройки. Устанавливаем флажок Пакет анализа (Рис.12)

Рис. 12. – Подключение надстройки Пакет анализа

В диалоговом окне Анализ данных выбираем Корреляция (Рис.13).

Рис.13. Диалоговое окно Анализ данных

После нажатия ОК в появившемся диалоговом окне указываем входной интервал (например А2:D26), группирование (в нашем случае по столбцам) и параметры вывода, как показано на рис.14.

Рис.14. Диалоговое окно Корреляция

Результат расчетов представлен в таблице 4.

Таблица 4.

Корреляционная матрица

	Столбец 1	Столбец 2	Столбец 3
Столбец 1	1
Столбец 2	0,3395753	1
Столбец 3	-0,1020202	-0,161494	1

Полученные значения свидетельствуют, что у отобранных факторов, оказывающих влияние на результативный показатель, слабая связь друг с другом и с результативным показателем.

Заключение.

Таким образом, одной из важных задач статистики является задача изучения и измерения связей между явлениями. Экономисту, менеджеру или финансисту в практической деятельности необходимо уметь выявить взаимосвязь между несколькими показателями, определить насколько изменение одного показателя зависит от изменения другого (или нескольких) и сделать правильные выводы. При изучении данной темы следует прежде всего хорошо уяснить, что статистика изучает только корреляционные связи, т.к. именно такого рода связи присущи в основном в социально-экономическом явлении и процессом. В отличие от функциональной зависимости, при которой каждому значению одной переменной строго соответствует одно или несколько определенных значений другой переменной. Зависимость, при которой одному значению переменной (х) может соответствовать (в силу наслоения других причин) множество значений другой переменной (у), называется корреляционной.

При проведении корреляционного анализа необходимо решить следующие задачи:

- выявление наличия (или отсутствие) связи;
- отыскание формы связи в виде математической формулы, выражающей эту зависимость;

- измерение тесноты такой зависимости.

Для решения задач используются графические, аналитические методы решения, проводится проверка существенности связи.

Использование функций и возможностей Excel позволяет значительно облегчить проводимые расчеты, особенно в случае с множественной корреляционной зависимостью.

Список литературы.

Т.В. Чернова Экономическая статистика Учебное пособие. Таганрог: Изд-во ТРТУ, 2001
Статистика для студентов вузов/И.Г.Переяслова, Е.Б.Колбачев, О.Г.Переяслова – Ростов н/Д.: Феникс, 2005г.-219с.
Харченко Л.П. Статистика: Учебник. – М.: ИНФРА-М, 2008 г.
Практикум по общей теории статистики:уч.пособие/ М.Р.Ефимова, О.И.Ганченко – М.: Финансы и статистика, 2007г.
Громыко Г.Л. Теория статистики: Практикум, - М.: ИНФРА-М, 2008

Информация о работе Методика корреляционного анализа