Автор работы: Пользователь скрыл имя, 09 Июня 2013 в 13:00, курсовая работа
Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) пере-менной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.
Модель линейной регрессии является часто используемой и наиболее изу-ченной в эконометрике.
Введение ………………………………………………………….2-4
1.Экспоненциальное сглаживание во временных рядах.
1.1 Простое экспоненциальное сглаживание во временных рядах…5
1.2Выбор лучшего параметра – альфа………………………………..6
1.3Индексы качества подгонки………………………………………7-9
1.4 Сезонная и несезонная модели с трендом или без тренда ……10-13
2.Понятие и основные показатели временного ряда
2.1Понятие временного ряда и формирующие его факторы……14-17
2.2 Основные показатели временного ряда…………………….18-21
Заключение ………………………………………………………
Практическая часть………………………………………………22-
Список использованной литературы……………………………
– случайный вектор-столбец ошибок модели регрессии размерности n x 1.
Условия построения нормальной линейной модели парной регрессии, записанные в матричной форме:
1) факторная переменная xi – неслучайная или детерминированная величина, которая не зависит от распределения случайной ошибки модели регрессии βi;
2) математическое ожидание
случайной ошибки модели
3) третье и четвёртое условия можно записать через ковариационную матрицы случайных ошибок нормальной линейной модели парной регрессии:
где G2 – дисперсия случайной ошибки модели регрессии ε;
In – единичная матрица размерности n x n.
Определение. Ковариацией называется показатель тесноты связи между переменными х и у, который рассчитывается по формуле:
где
– среднее арифметическое значение произведения факторного и результативного признаков;
Основными свойствами показателя ковариации являются:
а) ковариация переменной и константы равна нулю, т. е. cov(x,C)=0 (C=const);
б) ковариация переменной с самой собой равна дисперсии переменной, т. е. Cov(ε,ε)=G2(ε). По этой причине на диагонали ковариационной матрицы случайных ошибок нормальной линейной модели парной регрессии располагается дисперсия случайных ошибок;
4) случайная
ошибка модели регрессии
Задание № 1
1. Построить поле корреляции, сформулировать гипотезу о форме связи и построить эмпирическую линию регрессии (линию тренда).
Рассмотрим пример использования данных функций. Исходные данные, в которых содержатся цена и спрос на некоторый товар, представлены в таблице 1.
x |
y | |
1 |
35,09 |
175,18 |
2 |
40,21 |
186,31 |
3 |
30,28 |
158,68 |
4 |
25,49 |
141,91 |
5 |
33,04 |
163,61 |
6 |
33,62 |
163,07 |
7 |
39,70 |
183,59 |
8 |
35,91 |
167,09 |
9 |
30,92 |
153,67 |
10 |
33,45 |
162,09 |
11 |
37,31 |
168,70 |
12 |
39,33 |
168,96 |
13 |
37,60 |
167,60 |
14 |
35,69 |
157,61 |
15 |
34,26 |
153,77 |
С помощью возможностей программного комплекса Exсel построим поле корреляции. Для этого необходимо задать точечную диаграмму (диаграмма обязательно должна быть точечной), и выбрав произвольную точку в контекстном меню, можно выбрать пункт Добавить линию тренда. Хотя термин «тренд» имеет несколько другой смысл, применительно к временным рядам, в данном случае термины «тренд» и «линия регрессии» будем отождествлять друг с другом.
Построив точечную диаграммы для данных, заданных в таблице 1, и линию тренда, можно получить диаграмму, которая изображена на рисунке 1.
Рис. 1.
В данном случае можно сформулировать гипотезу о наличии связи между ценой и спросом на товар, носящей скорее всего линейный характер.
2. Построить уравнение регрессии зависимости У от X рассчитать параметры линейной, степенной, показательной функции и выбрать оптимальную модель (провести оценку моделей через среднюю ошибку аппроксимации (А) и F- критерий Фишера.
2.1 Линейная модель
В модели парной линейной регрессии зависимость между переменными в генеральной совокупности представляется в виде:
yi = β0 + β1 * xi + ei
где yi — зависимые переменные,
xi — независимые переменные;
β0, β1 — параметры уравнения регрессии, подлежащие оцениванию;
ei — случайная ошибка модели регрессии.
На основании выборочного
yi = β0 + β1 * xi
Неизвестные значения ( β0 ,β1 ) определяются методом наименьших квадратов (МНК), вычисление которых сводиться к разрешение системы уравнений:
Решением системы нормальных уравнений являются оценки неизвестных параметров уравнения регрессии β0 и β1:
1.07
где — среднее значение зависимого признака; y
— среднее значение независимого признака; x
— среднее арифметическое значение произведения зависимого и независимого признаков. xy
Для удобства расчетов сделаем промежуточные расчеты и внесем их в таблицу вида:
x |
y |
х*у |
Х2 |
У2 |
| ||
1 |
35,09 |
175,18 |
6146,993 |
1231,308 |
30687,297 |
165,0463 | |
2 |
40,21 |
186,31 |
7491,501 |
1616,844 |
34711,193 |
170,5247 | |
3 |
30,28 |
158,68 |
4804,679 |
916,8784 |
25177,756 |
159,8996 | |
4 |
25,49 |
141,91 |
3617,396 |
649,7401 |
20139,669 |
154,7743 | |
5 |
33,04 |
163,61 |
5405,816 |
1091,642 |
26769,639 |
162,8528 | |
6 |
33,62 |
163,07 |
5482,35 |
1130,304 |
26591,205 |
163,4734 | |
7 |
39,70 |
183,59 |
7288,471 |
1576,09 |
33704,811 |
169,979 | |
8 |
35,91 |
167,09 |
6000,119 |
1289,528 |
27918,299 |
165,9237 | |
9 |
30,92 |
153,67 |
4751,473 |
956,0464 |
23614,438 |
160,5844 | |
10 |
33,45 |
162,09 |
5422,031 |
1118,903 |
26274,335 |
163,2915 | |
11 |
37,31 |
168,70 |
6294,227 |
1392,036 |
28459,96 |
167,4217 | |
12 |
39,33 |
168,96 |
6645,059 |
1546,849 |
28546,299 |
169,5831 | |
13 |
37,60 |
167,60 |
6301,858 |
1413,76 |
28090,632 |
167,732 | |
14 |
35,69 |
157,61 |
5624,944 |
1273,776 |
24839,525 |
165,6883 | |
15 |
34,26 |
153,77 |
5268,266 |
1173,748 |
23646,166 |
164,1582 | |
итого |
521,90 |
2 471,84 |
86 545,18 |
18 377,45 |
409 171,22 |
2470,933 |
Подставив данные из таблицы в формулы и произведя расчеты получим линейную модель зависимости y от x имеет вид:
yi =127,5+1,07*хi |
3. Для определения силы взаимосвязи линейны коэффициент парной корреляции.
Коэффициентом корреляции (r) характеризует тесноту связи и рассчитывается по формуле:
Sy — выборочное среднеквадратическое отклонение зависимой переменной y. Этот показатель характеризует, на сколько единиц в среднем отклоняются значения зависимого признака y от его среднего значения. Он вычисляется по формуле:
Коэффициент корреляции лежит в пределах -1< r <1. В случае если r=0, связи нет. Если , то между двумя величинами существует сильная функциональная связь. При положительном r наблюдается прямая связь, т.е. с увеличением независимой переменной - x увеличивается зависимая - y. При отрицательном коэффициенте существует обратная связь, с увеличением независимой переменной зависимая переменная уменьшается. Связь считается сильной при , средней при 0,50 , умеренной при 0,30 , слабой при 0,20 , очень слабой при
Рассчитаем линейный коэффициент парной корреляции:
rxy=
Что свидетельствует о слабой обратной связи.
Для оценки качества построенного уравнения рассчитаем коэффициент детерминации и среднюю ошибку аппроксимации.
Коэффициент детерминации указывает, какой процент вариации функции Y объясняется воздействием фактора Х. Коэффициент детерминации изменяется от 0 до 1, и чем ближе значение данного коэффициента к 1, тем удачнее выбранная форма регрессионной зависимости аппроксимирует данные. В разобранном примере для линейной модели коэффициент детерминации равен:
Показатель средней ошибки аппроксимации рассчитывается по формуле:
Максимально допустимым значением данного показателя считается 12—15%. Если средняя ошибка аппроксимации составляет менее 6—7%, то качество модели считается хорошим.
Величина средней ошибки аппроксимации А составляет 2,4 %, что свидетельствует о среднем качестве модели.
Проверка значимость полученных с помощью метода наименьших квадратов оценок коэффициентов регрессии, значимость парного линейного коэффициента корреляции и уравнения регрессии в целом с помощью статистических гипотез.
При проверке значимости (предположения того, что параметры отличаются от нуля) коэффициентов регрессии выдвигается основная гипотеза H0 о незначимости полученных оценок, например:
в качестве альтернативной (или обратной) выдвигается гипотеза о значимости коэффициентов регрессии, например:
Выдвинутые гипотезы проверяются следующим образом:
1) если модуль наблюдаемого значения t-критерия больше критического значения t-критерия, т. е. |tнабл| > tкрит, то с вероятностью (1 −α) или γ основную гипотезу о незначимости параметров регрессии отвергают, т. е. параметры регрессии не равны нулю;
2) если модуль наблюдаемого значения t-критерия меньше или равен критическому значению t-критерия, т. е. |tнабл| ≤tкрит, то с вероятностью α или (1 −γ) основная гипотеза о незначимости параметров регрессии принимается, т. е. параметры регрессии почти не отличаются от нуля или равны нулю.
Формула наблюдаемого значения t-критерия Стьюдента для проверки гипотезы имеет вид:
где — оценка параметра регрессии β1;
ω(β1) — величина стандартной ошибки параметра регрессии β1.
x |
y |
х*у |
Х2 |
У2 |
y- |
y- |
xi- |
xi- | ||
1 |
35,09 |
175,18 |
6146,993 |
1231,308 |
30687,297 |
165,0463 |
10,13 |
72,52858 |
0,29 |
35,0059 |
2 |
40,21 |
186,31 |
7491,501 |
1616,844 |
34711,193 |
170,5247 |
15,78 |
-62,8474 |
5,41 |
10,9419 |
3 |
30,28 |
158,68 |
4804,679 |
916,8784 |
25177,756 |
159,8996 |
-1,22 |
157,1754 |
-4,52 |
9,8496 |
4 |
25,49 |
141,91 |
3617,396 |
649,7401 |
20139,669 |
154,7743 |
-12,86 |
-23,4653 |
-9,31 |
-61,1861 |
5 |
33,04 |
163,61 |
5405,816 |
1091,642 |
26769,639 |
162,8528 |
0,76 |
163,0344 |
-1,76 |
29,9424 |
6 |
33,62 |
163,07 |
5482,35 |
1130,304 |
26591,205 |
163,4734 |
-0,41 |
162,9038 |
-1,18 |
32,2276 |
7 |
39,70 |
183,59 |
7288,471 |
1576,09 |
33704,811 |
169,979 |
13,61 |
-1,63523 |
4,90 |
15,69 |
8 |
35,91 |
167,09 |
6000,119 |
1289,528 |
27918,299 |
165,9237 |
1,16 |
165,7328 |
1,11 |
34,6779 |
9 |
30,92 |
153,67 |
4751,473 |
956,0464 |
23614,438 |
160,5844 |
-6,91 |
105,8596 |
-3,88 |
15,8656 |
10 |
33,45 |
162,09 |
5422,031 |
1118,903 |
26274,335 |
163,2915 |
-1,20 |
160,6586 |
-1,35 |
31,6275 |
11 |
37,31 |
168,70 |
6294,227 |
1392,036 |
28459,96 |
167,4217 |
1,28 |
167,0647 |
2,51 |
31,0099 |
12 |
39,33 |
168,96 |
6645,059 |
1546,849 |
28546,299 |
169,5831 |
-0,63 |
168,5639 |
4,53 |
18,8091 |
13 |
37,60 |
167,60 |
6301,858 |
1413,76 |
28090,632 |
167,732 |
-0,13 |
167,5859 |
2,80 |
29,76 |
14 |
35,69 |
157,61 |
5624,944 |
1273,776 |
24839,525 |
165,6883 |
-8,08 |
92,27556 |
0,89 |
34,8979 |
15 |
34,26 |
153,77 |
5268,266 |
1173,748 |
23646,166 |
164,1582 |
-10,39 |
45,9228 |
-0,54 |
33,9684 |
итого |
521,90 |
2 471,84 |
86 545,18 |
18 377,45 |
409 171,22 |
2470,933 |
0,90 |
1541,358 |
-0,10 |
303,0876 |
В случае парной линейной модели регрессии показатель вычисляется следующим образом:
Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации как:
Вычисляя критического значения t-критерия, получили tнабл=0,275 и сравниваем с критическими tкрит, которые определяют по таблице распределения Стьюдента с учётом принятого уровня значимости α=0,05 и числом степеней свободы вариации n–2 (15-2=13), получили tкрит=1,771.
Наблюдаемое значение t-критерия по модулю меньше его критического значения, т. е. |tнабл| < tкрит. Таким образом, коэффициент парной регрессии β1 оказался не значимым.
Формула наблюдаемого значения t-критерия Стьюдента для проверки гипотезы имеет вид:
где — оценка параметра регрессии β0;
ω(β0) — величина стандартной ошибки параметра регрессии β0.
В случае парной линейной модели регрессии показатель вычисляется следующим образом:
=
Проверка гипотезы о значимости парного линейного коэффициента корреляции
При проверке значимости коэффициента корреляции между независимым признаком x и зависимым признаком y (предположения того, что изучаемый параметр отличается от нуля), выдвигается основная гипотеза H0 о его незначимости: ; в качестве альтернативной (или обратной) выдвигается гипотеза H1 о значимости коэффициента корреляции:
.
Для проверки выдвинутых гипотез используется t-критерий (t-статистику) Стьюдента.
Критическое значение t-критерия tкрит(α; n−h), где α — уровень значимости, (n − h) — число степеней свободы, определяется по таблице распределений t-критерия Стьюдента.
Формула значения t-критерия Стьюдента для проверки гипотезы
- величина стандартной ошибки парного выборочного коэффициента корреляции.
При линейной парной модели регрессии эта величина рассчитывается как:
=
Подставим данную
формулу в выражение для
=
Проверка гипотезы о значимости уравнения парной регрессии
Информация о работе Экспоненциальное сглаживание во временных рядах