Оценка качества уравнения регрессии

Автор работы: Пользователь скрыл имя, 05 Сентября 2014 в 12:44, лекция

Описание работы

Теорема Гаусса-Маркова.
Анализ точности определения оценок коэффициентов регрессии.
Качество уравнения регрессии. Коэффициент детерминации.
Интервалы прогноза по линейному уравнению регрессии.

Файлы: 1 файл

n2.doc

— 402.00 Кб (Скачать файл)

Лекция 2

Оценка качества уравнения регрессии.

 

Вопросы:

  1. Теорема Гаусса-Маркова.
  2. Анализ точности определения оценок коэффициентов регрессии.
  3. Качество уравнения регрессии. Коэффициент детерминации.
  4. Интервалы прогноза по линейному уравнению регрессии.

 

 

     1.  Теорема Гаусса-Маркова.

     Вернемся к рассмотрению регрессионного уравнения . Сделаем некоторые предположения.

1) - спецификация модели, отражающая наше представление о механизме зависимости.

    1. Хt – детерминированная экзогенная переменная. Случайный член должен быть распределен независимо от объясняющей переменной.

3)  М( ) = 0, то есть случайный член не должен иметь систематического смещения. Это условие всегда можно выполнить, если модель включает свободный член, который будет учитывать любую систематическую  тенденцию. Можно считать это условие выполняющимся автоматически.

      D( ) = M( 2) – M2( ) = M( 2) = 2 = Const для всех наблюдений. Условие независимости дисперсии от номера наблюдений называют гомоскедастичностью. Случай не выполнения условия гомоскедастичности называют гетероскедастичностью – M( 2) = 2 Const,

4) cov( i, j) = M( i j) –M( i)M( j) = M( i j) = 0. Предполагается отсутствие систематической связи между значениями для разных наблюдений. Случайные члены должны быть независимыми. В случае, когда это свойство нарушается (временные ряды), говорят об автокорреляции остатков -

M( i j) 0.

     Часто добавляется  условие  ~ N(0, ). В этом случае модель называют нормальной линейной регрессионной моделью. Таки образом, задача состоит в оценке параметров и по данным наблюдений.

Теорема Гаусса-Маркова:

             в предположении 1)-4) оценки параметров регрессии,

             полученные МНК, имеют наименьшую дисперсию в

             классе всех линейных несмещенных оценок.

Доказательство:

  1. Докажем несмещенность оценок: ,  .

.

.

      2. Определим дисперсии  оценок.

.

.

Следовательно, оценки состоятельны.

      3. Оценки эффективны, то есть они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров.

 

2. Анализ точности определения оценок коэффициентов регрессии.

     Так как выборочные данные являются случайными величинами, оценки и также являются случайными величинами. В случае выполнения условий Гаусса-Маркова, оценки будут несмещенными и состоятельными. При этом они будут тем надежнее, чем меньше их разброс вокруг их математических ожиданий или меньше их дисперсия. Надежность получаемых оценок тесно связана с D( ). Как уже известно ,   . Из соотношений можно сделать следующие очевидные выводы:

1) дисперсии  и прямо пропорциональны   D( ) = 2;

2) чем больше число наблюдений, тем меньше дисперсия;

3) чем больше  (разброс х), тем меньше дисперсии оценок.

Так как случайные составляющие по выборке определены быть не могут, при анализе надёжности оценок коэффициентов регрессии они заменяются наблюдаемыми отклонениями , а дисперсии случайных отклонений D( ) = 2 заменяются несмещенной оценкой = (здесь (n-2) – число степеней свободы). S – называют стандартной ошибкой регрессии. Тогда оценки дисперсий оценок

             и              ,

Sa и Sb – стандартные ошибки коэффициентов регрессии.

Пример. Получим оценки S2, Sa, Sb для условий примера из лекции 2.

№ предприятия

1

2

3

4

5

6

7

Выпуск продукции, х

1

2

4

3

5

3

4

Затраты на производство, у

30

70

150

100

170

100

150


 

Решение

Ранее было получено уравнение регрессии

  , с использованием которого можно было рассчитать модельные значения . Чтобы получить стандартные ошибки,  необходимо:

1)   n = 7;

     S2 = 263,1583/5 = 52,632; S = 7,255;

2)

3) Sb2 =   Sb = 2,202;

4) Sa2 =   Sa = 7,443.

    Стандартные ошибки регрессии  и её коэффициентов можно получить  при использовании ППП Excel (см. Вывод итогов).

     Если выполняется условие нормальности распределения случайного члена: ~ N(0; ), то МНК оценки коэффициентов регрессии тоже нормальны с соответствующими параметрами, так как они являются линейными функциями  от Уt:

                       ~ N( )         и            ~ N( ).

Если условие нормальности ошибок не выполняется, то при некоторых условиях регулярности и росте n можно считать это распределение асимптотически нормальным.

     Во время статистических  исследований всегда проверяют  гипотезы:

                    Н0: а = а0    или «о значимости»     Н0: а = 0

                     Н0: b = b0                                           Н0: b = 0 .

Альтернативная гипотеза ( ) предусматривает построение двусторонней критической области. В качестве критерия проверки используют случайные величины, называемые

 

ВЫВОД ИТОГОВ

           
             

Регрессионная статистика

         

Множественный R

0,991189256

         

R-квадрат

0,98245614

         

Нормированный R-квадрат

0,978947368

         

Стандартная ошибка

7,254762501

         

Наблюдения

7

         
             

Дисперсионный анализ

           
 

df

SS

MS

F

Значимость F

 

Регрессия

1

14736,84211

14736,84211

280

1,39294E-05

 

Остаток

5

263,1578947

52,63157895

     

Итого

6

15000

       
             
 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-5,789473684

7,443229276

-0,777817459

0,47185877

-24,92290365

13,34395628

x

36,84210526

2,201736912

16,73320053

1,39294E-05

31,18236035

42,50185017


 

 

 

 

 

 

 

 

t-статистиками:  tb  = или ta = ; которые имеют распределение Стьюдента с (n-2) степенями свободы. Проверка состоит  в следующем:

              - если  , то нет оснований отвергать Н0;

             - если , то Н0 отвергают.

     При оценке значимости  коэффициентов линейной регрессии  на начальном этапе можно использовать  «грубое» правило:

1) если стандартная ошибка коэффициента  больше его по модулю ( ), то коэффициент не значим (надежность меньше 0,7);

2) если  , то оценка может рассматриваться как относительно значимая, 0,7 < <0,95;

3) 2 , то оценка значима, 0,95 < <0,99;

4) , это почти гарантия наличия линейной связи.

В каждом конкретном случае имеет значение число наблюдений. Чем их больше, тем надежнее при прочих равных условиях выводы о значимости коэффициентов. При n>10 «грубое» правило практически всегда работает.

     Соответствующие доверительные  интервалы для оценок коэффициентов  регрессии с надёжностью  имеют вид:   ( )    и    ( ).

Пример. Проверим гипотезу Н0: b = 37 при и 0,05 для нашего примера.

1)

2) tкр.дв(0,01;5) = 4,03;    tкр.дв(0,05;5) = 2,57;

3) Так как  = 0,072 < tкр.дв(0,05;5) = 2,57, то нет оснований отвергать Н0.

     Если Н0 отвергается при , то она будет отвергнута и при  . Если Н0 не отвергается при , то она не будет отклоняться и при автоматически. Стандартные ППП содержат проверку «значимости» полученных оценок. При этом если Н0: b = 0 не отклоняется, то коэффициент b статистически не значим, то есть нет зависимости между Х и У.

 

3. Качество уравнения регрессии. Коэффициент детерминации.

     Цель регрессионного  анализа состоит в объяснении  поведения зависимой переменной. Пусть для этого по выборочным данным построено уравнение регрессии. Тогда значение у в каждом наблюдении можно разложить на две составляющие , где е – остаток, т.е. та часть, которую невозможно объяснить. Разброс значений зависимой переменной характеризуется выборочной дисперсией

D(y) = D (

) = D (
) + D (e) + 2cov (
, e).

Cov (

, e) = cov (
                               

              D(y)        =           D( )        +        D(e)

      общая дисперсия       факторная дисперсия,              остаточная дисперсия,   

                                           объясненная уравнением          необъясненная

Коэффициентом детерминации R2 называют отношение  

,

характеризующее долю вариации зависимой переменной, объясненную уравнением регрессии, .

Если R2 = 1, то  D(y) = D( ), D(e) = 0, т.е. все точки наблюдений лежат на регрессионной прямой.

 Если R2 = 0, то регрессия не дает ничего, линия регрессии параллельна оси Ох.

Чем ближе R2  к 1, тем более точно аппроксимирует у.

 Вычисление R2 корректно, если включено в уравнение. Полезны следующие соотношения:

;            
.

Для определения статистической значимости R2 проверяется гипотеза

                    Н0: R2 = 0 с помощью статистики F =   .

Если F < Fкр( , то Н0 нет оснований отвергать или R2 статистически не значим, в противном случае – значим. В случае парной регрессии R2 = r2. Коэффициент корреляции r выступает показателем тесноты линейной зависимости, тесная нелинейная связь возможна и при r , близких к нулю.

     Для нашего примера:

, R2 = 0,982.

Следовательно, уравнение регрессии описывает 98,2% дисперсии признака у. Это означает очень тесную зависимость.

     Можно показать, что  в парном регрессионном анализе  эквивалентны t-критерий для Н0: b = 0, t-критерий для Н0: r = 0 и F-критерий для Н0: R2 = 0. Таким образом, проверка значимости коэффициента b равносильна проверке значимости уравнения регрессии

             ,   , F = и   tb =  tr =  .

 

4. Интервалы прогноза по линейному уравнению регрессии.

     Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Различают точечное и интервальное прогнозирование. При этом возможно предсказать условное математическое ожидание зависимой переменной (т.е. ср. значение), либо прогнозировать некоторое конкретное значение (т.е. индивидуальное).

     Пусть имеется уравнение  регрессии  . Точечной оценкой М(У│Х=хр) = р = . Так как и имеют нормальное распределение ( в силу нормальности ), то р является случайной величиной с нормальным распределением.

,

                          М( р) = М( ) =

D(

р) = D(
) + D(
) + xp2D(
) + 2cov(
,
)xp =
+

+ xp2

-2xp
=
(
+ xp2 - 2 xp
)│
=

=

(
+
- 2 xp
+ xp2) = 
.

Информация о работе Оценка качества уравнения регрессии