Автор работы: Пользователь скрыл имя, 05 Сентября 2014 в 12:44, лекция
Теорема Гаусса-Маркова.
Анализ точности определения оценок коэффициентов регрессии.
Качество уравнения регрессии. Коэффициент детерминации.
Интервалы прогноза по линейному уравнению регрессии.
Лекция 2
Оценка качества уравнения регрессии.
Вопросы:
1. Теорема Гаусса-Маркова.
Вернемся к рассмотрению регрессионного уравнения . Сделаем некоторые предположения.
1) - спецификация модели, отражающая наше представление о механизме зависимости.
3) М( ) = 0, то есть случайный член не должен иметь систематического смещения. Это условие всегда можно выполнить, если модель включает свободный член, который будет учитывать любую систематическую тенденцию. Можно считать это условие выполняющимся автоматически.
D( ) = M( 2) – M2( ) = M( 2) = 2 = Const для всех наблюдений. Условие независимости дисперсии от номера наблюдений называют гомоскедастичностью. Случай не выполнения условия гомоскедастичности называют гетероскедастичностью – M( 2) = 2 Const,
4) cov( i, j) = M( i j) –M( i)M( j) = M( i j) = 0. Предполагается отсутствие систематической связи между значениями для разных наблюдений. Случайные члены должны быть независимыми. В случае, когда это свойство нарушается (временные ряды), говорят об автокорреляции остатков -
M( i j) 0.
Часто добавляется условие ~ N(0, ). В этом случае модель называют нормальной линейной регрессионной моделью. Таки образом, задача состоит в оценке параметров и по данным наблюдений.
Теорема Гаусса-Маркова:
в предположении 1)-4) оценки параметров регрессии,
полученные МНК, имеют наименьшую дисперсию в
классе всех линейных несмещенных оценок.
Доказательство:
.
2. Определим дисперсии оценок.
Следовательно, оценки состоятельны.
3. Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров.
2. Анализ точности определения оценок коэффициентов регрессии.
Так как выборочные данные являются случайными величинами, оценки и также являются случайными величинами. В случае выполнения условий Гаусса-Маркова, оценки будут несмещенными и состоятельными. При этом они будут тем надежнее, чем меньше их разброс вокруг их математических ожиданий или меньше их дисперсия. Надежность получаемых оценок тесно связана с D( ). Как уже известно , . Из соотношений можно сделать следующие очевидные выводы:
1) дисперсии и прямо пропорциональны D( ) = 2;
2) чем больше число наблюдений, тем меньше дисперсия;
3) чем больше (разброс х), тем меньше дисперсии оценок.
Так как случайные составляющие по выборке определены быть не могут, при анализе надёжности оценок коэффициентов регрессии они заменяются наблюдаемыми отклонениями , а дисперсии случайных отклонений D( ) = 2 заменяются несмещенной оценкой = (здесь (n-2) – число степеней свободы). S – называют стандартной ошибкой регрессии. Тогда оценки дисперсий оценок
и ,
Sa и Sb – стандартные ошибки коэффициентов регрессии.
Пример. Получим оценки S2, Sa, Sb для условий примера из лекции 2.
№ предприятия |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Выпуск продукции, х |
1 |
2 |
4 |
3 |
5 |
3 |
4 |
Затраты на производство, у |
30 |
70 |
150 |
100 |
170 |
100 |
150 |
Решение
Ранее было получено уравнение регрессии
, с использованием которого можно было рассчитать модельные значения . Чтобы получить стандартные ошибки, необходимо:
1) n = 7;
S2 = 263,1583/5 = 52,632; S = 7,255;
2)
3) Sb2 = Sb = 2,202;
4) Sa2 = Sa = 7,443.
Стандартные ошибки регрессии
и её коэффициентов можно
Если выполняется условие нормальности распределения случайного члена: ~ N(0; ), то МНК оценки коэффициентов регрессии тоже нормальны с соответствующими параметрами, так как они являются линейными функциями от Уt:
~ N( ) и ~ N( ).
Если условие нормальности ошибок не выполняется, то при некоторых условиях регулярности и росте n можно считать это распределение асимптотически нормальным.
Во время статистических исследований всегда проверяют гипотезы:
Н0: а = а0 или «о значимости» Н0: а = 0
Н0: b = b0 Н0: b = 0 .
Альтернативная гипотеза ( ) предусматривает построение двусторонней критической области. В качестве критерия проверки используют случайные величины, называемые
ВЫВОД ИТОГОВ |
||||||
Регрессионная статистика |
||||||
Множественный R |
0,991189256 |
|||||
R-квадрат |
0,98245614 |
|||||
Нормированный R-квадрат |
0,978947368 |
|||||
Стандартная ошибка |
7,254762501 |
|||||
Наблюдения |
7 |
|||||
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
1 |
14736,84211 |
14736,84211 |
280 |
1,39294E-05 |
|
Остаток |
5 |
263,1578947 |
52,63157895 |
|||
Итого |
6 |
15000 |
||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% | |
Y-пересечение |
-5,789473684 |
7,443229276 |
-0,777817459 |
0,47185877 |
-24,92290365 |
13,34395628 |
x |
36,84210526 |
2,201736912 |
16,73320053 |
1,39294E-05 |
31,18236035 |
42,50185017 |
t-статистиками: tb = или ta = ; которые имеют распределение Стьюдента с (n-2) степенями свободы. Проверка состоит в следующем:
- если , то нет оснований отвергать Н0;
- если , то Н0 отвергают.
При оценке значимости
коэффициентов линейной
1) если стандартная ошибка
2) если , то оценка может рассматриваться как относительно значимая, 0,7 < <0,95;
3) 2 , то оценка значима, 0,95 < <0,99;
4) , это почти гарантия наличия линейной связи.
В каждом конкретном случае имеет значение число наблюдений. Чем их больше, тем надежнее при прочих равных условиях выводы о значимости коэффициентов. При n>10 «грубое» правило практически всегда работает.
Соответствующие доверительные
интервалы для оценок
Пример. Проверим гипотезу Н0: b = 37 при и 0,05 для нашего примера.
1)
2) tкр.дв(0,01;5) = 4,03; tкр.дв(0,05;5) = 2,57;
3) Так как = 0,072 < tкр.дв(0,05;5) = 2,57, то нет оснований отвергать Н0.
Если Н0 отвергается при , то она будет отвергнута и при . Если Н0 не отвергается при , то она не будет отклоняться и при автоматически. Стандартные ППП содержат проверку «значимости» полученных оценок. При этом если Н0: b = 0 не отклоняется, то коэффициент b статистически не значим, то есть нет зависимости между Х и У.
3. Качество уравнения регрессии. Коэффициент детерминации.
Цель регрессионного
анализа состоит в объяснении
поведения зависимой
D(y) = D (
Cov (
D(y) = D( ) + D(e)
общая дисперсия факторная дисперсия, остаточная дисперсия,
Коэффициентом детерминации R2 называют отношение
характеризующее долю вариации зависимой переменной, объясненную уравнением регрессии, .
Если R2 = 1, то D(y) = D( ), D(e) = 0, т.е. все точки наблюдений лежат на регрессионной прямой.
Если R2 = 0, то регрессия не дает ничего, линия регрессии параллельна оси Ох.
Чем ближе R2 к 1, тем более точно аппроксимирует у.
Вычисление R2 корректно, если включено в уравнение. Полезны следующие соотношения:
Для определения статистической значимости R2 проверяется гипотеза
Н0: R2 = 0 с помощью статистики F = .
Если F < Fкр( , то Н0 нет оснований отвергать или R2 статистически не значим, в противном случае – значим. В случае парной регрессии R2 = r2. Коэффициент корреляции r выступает показателем тесноты линейной зависимости, тесная нелинейная связь возможна и при r , близких к нулю.
Для нашего примера:
, R2 = 0,982.
Следовательно, уравнение регрессии описывает 98,2% дисперсии признака у. Это означает очень тесную зависимость.
Можно показать, что
в парном регрессионном
, , F = и tb = tr = .
4. Интервалы прогноза по линейному уравнению регрессии.
Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Различают точечное и интервальное прогнозирование. При этом возможно предсказать условное математическое ожидание зависимой переменной (т.е. ср. значение), либо прогнозировать некоторое конкретное значение (т.е. индивидуальное).
Пусть имеется уравнение регрессии . Точечной оценкой М(У│Х=хр) = р = . Так как и имеют нормальное распределение ( в силу нормальности ), то р является случайной величиной с нормальным распределением.
,
М( р) = М( ) =
D(
+ xp2
=