Лекции по "Эконометрике"

Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 16:51, курс лекций

Описание работы

Анализ невременных данных.
Характеристики случайной величины.
Модель парной линейной регрессии.
Теорема Гаусса-Маркова.
Ковариационная матрица.
Дисперсионный анализ.
Модель множественной регрессии.
Спецификация модели.
Dummy – переменные, фиктивные переменные.

Файлы: 1 файл

Лекции.doc

— 1,006.50 Кб (Скачать файл)

Мы оцениваем 

- истинная оценка

Найдем математическое ожидание полученной оценки

Получаем  смещенные оценки, т.е. оценка не такая  хорошая, но можно  показать, что ее дисперсия будет  меньше.

  1. Включение в модель несущественных параметров.

Пусть истинная модель:  , а оценивается модель:

Выписывая оценку коэффициентов b в оцениваемой модели, можно показать, что

оценка  несмещенная, но дисперсия  , где – матрица, зависящая от z, т.е. дисперсия оценки увеличивается от включения в модель несущественных параметров.

Следствие: выбирая из двух зол наименьшее, лучше не включать часть существенных параметров, чем включить несущественные.

Dummy – переменные, фиктивные переменные

 

Как правило, независимые переменные в регрессионных  моделях имеют непрерывные области  распределения. Однако некоторые переменные могут иметь всего два или  дискретное множество значений, например: пол, уровень образования, рейтинг, оценка и т.д.

Например: рассмотрим в качестве зависимой переменной – заработная плата, а  - набор объясняющих переменных.

Хотим в  модель включить новую бинарную переменную, отвечающую за наличие или отсутствие высшего образования. Тогда необходимо включить в модель новую переменную d (d=1, если t-ый рабочий имеет высшее образование; d=0, если не имеет)

и рассмотреть  новую модель

Тогда средняя  заработная плата для людей без  высшего образования = ; с высшим образованием =

Т.е. коэффициент  интерпретируется как среднее изменение з/п при переходе из одной категории в другую при неизменных остальных параметрах. Т.е. люди с высшим образованием получают на рублей больше. Если коэффициент перед незначим, т.е. его р>0,05, то различий в з/п между категориями нет.

Замечание: качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно 0 и1. Но тогда интегрируемость коэффициента усложняется.

Замечание: если включающаяся в модель dummy переменная имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений, но тогда, во-первых, затрудняется интерпретация, во-вторых, подразумевается одинаковое различие между состояниями признака. Поэтому вводят несколько бинарных переменных.

Пример: пусть оценивается стоимость мобильного телефона. В качестве дискретного признака выступает вид телефона:

Вводятся 4 бинарных переменных

, если телефон  обычный;  , в остальных случаях

, если телефон  слим; , в остальных случаях

, если телефон  раскладушка;  , в остальных случаях

, если телефон  вертушка; , в остальных случаях

 

Мы не включили в модель , т.к. тогда для любой строки выполнялось бы , т.е. регрессоры были бы линейно зависимы, т.е. мы не смогли бы получить МНК-оценку параметров, т.к. не смогли бы обратить матрицу.

Интерпретация коэффициентов:

Средняя стоимость телефона слим: , раскладушка: , вертушка:

Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные.

Пример: если рассматривается вторичный  рынок квартир в Москве, то зависимая  переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:

, если одна комната;  , если нет

, если две комнаты; , если нет

, если три комнаты;  , если нет

, если четыре комнаты;  , если нет

 

В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.

Прогнозирование

 

После построения регрессионного уравнения  и оценки значимости ее коэффициентов, можно получить предсказанное значение результата с помощью точного прогноза при заданном значении фактора . Для этого в полученное уравнение регрессии надо подставить  факторы , после чего получить прогноз. Это так называемый точечный прогноз, но он не дает требуемых представлений, и мало применим на практике. Поэтому дополнительно необходимо осуществить определение стандартной ошибки прогнозирования и получить интервальную оценку прогнозного значения.

Чтобы построить интервальный прогноз, необходимо найти верхнюю и нижнюю границы. Найдем сначала формулу  стандартной ошибки прогнозирования  . Вставим в формулу линейной регрессии значение параметра    . Тогда уравнение регрессии имеет следующий вид:

Из этой формулы следует, что  стандартная ошибка прогнозирования  зависит от ошибки y-среднее и ошибки коэффициента регрессии b. Тогда

,  если - неизвестна, то ее заменяют на оценку дисперсии

Учитывая  ошибку регрессии  ,получаем следующую формулу для прогноза:

Тогда интервальный прогноз или доверительный интервал прогнозируемого значения рассчитывается следующим образом:

, где  -предельная ошибка прогноза

- кванти с уровнем доверия 

Например: =0,95, то истинное значение попадет в доверительный интервал с вероятностью 0,95

Строя прогноз, мы хотим получить как  можно более точный прогноз и  как можно меньший интервал (узкий), но чем выше , тем дальше друг от друга границы интервала и наоборот. Поэтому приходится искать компромисс. Часто в задачах   задано заказчиками исследования. Поэтому, строя модель, мы должны помнить, что хорошая модель – это та, интервальные прогнозы, по которой достаточно точные и границы не слишком далеко друг от друга, а сам интервал неширокий.

Замечание: если построенная по выборке модель имеет высокий , все оценки значимы, остатки близки к нормальным, но прогнозы неточные, широкие интервалы прогнозирования (плохая прогностическая способность модели), то, возможно, вы просто подогнали модель под данные и она не подходит, т.е. ее надо переделать, т.е. прогнозирование можно использовать в качестве оценки качества модели.

 

Выбор параметров линейной регрессии (процедура пошагового отбора)

 

При построении регрессии для подбора  наиболее подходящих параметров используется либо метод включений, либо метод  исключений.

Смысл метода включений:

1) По матрице корреляций выбирается  параметр, коэффициент корреляции которого с  зависимой переменной (Y) – наибольший

 

         
         

       

                                                                           

                                                                         

2) Строится парная регрессия  Y на этот параметр .

3) Если коэффициент линейной  регрессии значим, т.е. р<0,05, то  параметр остается а

4) Берется следующий параметр.

5) Строится регрессия Y на

Оценивается значимость коэффициентов.

Если коэффициент при соответствующем  параметре незначим, параметр исключают  .

Если не значим – смотри пункт 4)

7) После  рассмотрения последнего параметра  должна получиться многомерная  регрессия, у которой вес параметры значимы.

8) Рассматриваем  более детально не вошедшие  в модель параметры и пытаемся  определить, с чем связано их  не влияние: либо неудачная  выборка, либо неправильно определен  параметр, либо не включенные  параметры влияют только во  взаимодействии с другими параметрами.

Смысл метода исключений:

  1. Строим регрессию Y на все параметры X
  2. Исключаем самый незначимый параметр.
  3. Строим новую регрессию Y

По окончании процедуры должна получиться регрессия  , где все параметры значимы.

Рассмотрим  более детально не вошедшие в модель параметры.

Выбросы – в экономике ими называются резко отличающиеся от других значения.

    цена


 

                 №1     №2



 

                                       №3

                          


                                                      время работы


 

Если рассматривать  мобильные телефоны, зависимость  цены от времени работы, то №1, №2, №3 – считаются выбросами, т.к. №1 и  №2 имеют слишком большую цену, а у №3 при самом большом  времени работы самая маленькая цена.

5%-10% от выборки.

Встает проблема определения выбросов.

Существует  множество процедур определения  выбросов. Рассмотрим один из них.

Рассмотрим  зависимость Y от параметров

  Y -----------------



                    

          -------------------

        


                                                     

Для определения того, является ли значение выбросом или нет, используют следующее: строят интервал следующего вида: математическое ожидание параметра минус два стандартных отклонения : -левая граница

-правая граница

Те значения параметра, которые не попадут в этот интервал, считаются выбросами.

Если при построении регрессии  параметров несколько, то сначала по каждому из параметров определяются номера выбросов, а затем либо все  они считаются выбросами, либо только наиболее часто встречаемые номера.

Обязательное условие этой процедуры  – это пояснение, почему то или  иное наблюдение является выбросом.

Работа с процедурными значениями

 

При работе с финансовыми показателями и макроэкономическими показателями часто встречается ситуация, когда  часть значений отсутствует.

Например: по одному из регионов России отсутствует значение одного из параметров. В этом случае возможны два варианта:

  1. Исключить наблюдения, в которых есть пропущенные значения. Но в ряде случаев выборка небольшая или слишком много значений, и тогда первый вариант не подходит.
  2. Восстановление пропущенных значений, т.е. неизвестное значение заменяется возможным подходящим:

а) ставится среднее

б) нулевое

в) по аналогии с похожим наблюдением

г) используется метод линейной аппроксимации.

Вопрос о заполнении пропущенных значений при работе с реальными данными встречается довольно часто. До сих пор этот вопрос не решен окончательно.

Общая методика построения регрессионного уравнения

 

  1. Выбираем зависимую переменную Y.
  2. Рассматриваем парные графики зависимостей Y от   , где , k – параметр.


 

                


 

 

                                      

                          


                                                     

По виду этого графика делаются выводы о наличии или отсутствии зависимости и о виде этой зависимости.

  1. Рассматривается матрица корреляции между зависимой переменной и независимой.

Интерпретируются знаки линейной корреляции и сила линейной связи.

Если  , то один из них исключается

  1. С помощью метода пошагового отбора строим регрессию (Y, )
  2. Подбираем спецификацию модели, а именно максимизируя , минимизируется количество параметров линейной регрессии.

, количество параметров регрессии 

Подбирая спецификацию модели можно  использовать следующие соображения:

а) lnY, тогда зависимая переменная не уйдет в минус и зависимость Y от X постепенно, т.е. при изменении параметра X на 1, Y меняется в процентах.

б) берется параметр в квадрате, если с увеличением X его влияние на Y возрастает.

в) ln параметра. В этом случае с ростом значения параметра, влияние на Y уменьшается.

г) использование взаимодействия параметров, например их перемножение.

  1. Построение прогноза (точного) наилучшей подобранной модели
  2. Построение интервального прогноза, т.е. построение
  3. (Дополнительно) Работа с выбросами.

После их удаления п.4-п.7 и сравниваются.

  1. Интерпретация полученных результатов:

а) описание экономического смысла модели

б) интерпретация коэффициентов  и знаков перед ними

в) анализ точности прогнозирования  и ширины интервала

г) описание выбросов

 

 

 

Раздел II

Анализ силы связи порядковых и   категориальных переменных

 

Количественные (или номинальные) переменные – переменные, выражающиеся в числах в определенных единицах измерения.

Категориальные  переменные – это переменные, принимающие конечное число значений, состоящих из категорий, которые неупорядочены относительно друг друга. Чаще всего выражаются не в числах.

Например: цвет, уровень образования, страна, фамилия.

Порядковые  переменные – это категориальные переменные, для которых определено отношение порядка, т.е. они ранжированы относительно друг друга.

Информация о работе Лекции по "Эконометрике"