Лекции по "Эконометрике"

Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 16:51, курс лекций

Описание работы

Анализ невременных данных.
Характеристики случайной величины.
Модель парной линейной регрессии.
Теорема Гаусса-Маркова.
Ковариационная матрица.
Дисперсионный анализ.
Модель множественной регрессии.
Спецификация модели.
Dummy – переменные, фиктивные переменные.

Файлы: 1 файл

Лекции.doc

— 1,006.50 Кб (Скачать файл)

Лекции по эконометрике

 

Эконометрика – это наука, объединяющая различные статистические методы, используемые для наблюдения за ходом развития экономики, ее анализа и прогнозов, а также для выявления взаимосвязей между экономическими явлениями.

Задачи:

  1. Изучить экономическое явление
  2. Прогнозирование явлений
  3. Взаимосвязи явлений

 

Раздел I

Анализ невременных  данных

 

Мы будем  работать с данными, которые не являются временными, т.е. их можно переставлять местами, не меняя смысла

Случайная величина (с.в.) x – это числовая функция, заданная на некотором вероятностном пространстве.

Функция распределения  с.в. x– это числовая функция числового аргумента, заданная равенством: F(x)=P(x C)

Характеристики случайной  величины

 

  1. Математическое ожидание с.в. x.

Обозначается E(x). Показывает среднее ожидаемое значение.

Если x – дискретная с.в., то

Если x – непрерывная с.в., то , где f(x) – плотность распределения.

Т.к. при  работе с данными мы не знаем вероятности, то математическое ожидание считается как , где n – количество наблюдений

Свойства математического  ожидания:

  1. , где x и y – с.в.; a и b = const
  2. Если с.в. y с.в. x, то
  3. Если , то
  1. Дисперсия

Обозначается D[x]=V(x). Дисперсия – это среднее отклонение от среднего, т.е. на сколько в среднем большинство значений отклонится от математического ожидания, т.е. большинство значений будет лежать в интервале:

Свойства дисперсии:

  1. Ковариация

Обозначается Cov(x,y). Показывает однонаправленность двух случайных величин, т.е. ковариация – это мера линейной зависимости с.в.

Свойства ковариации:

Т.к. ковариация меняется от до , то использовать ее как меру линейной связи, неудобно, поэтому вводят понятие корреляции.

  1. Корреляция.

Обозначается Corr(x,y). Показывает силу линейной связи в интервале

Свойства корреляции:

1)

2) Если  , то между x и y связи нет.

3) Если  , то связь сильная положительная, т.е. рост x вызывает рост y и наоборот.

Замечание: если , т.е. линейной связи нет, то это не значит, что нет нелинейной связи.

Ложная корреляция.

При использовании  следует помнить, что он показывает наличие только линейной связи. Ложная корреляция – в ряде случаев неправильно выбраны случайные величины, между которыми ищется корреляционная связь.

Пример: Если искать связь между длиной волос и ростом, то получится, что чем выше человек, тем короче у него волосы. Ошибка в том, что следует рассматривать эту зависимость отдельно по мужчинам и отдельно по женщинам.

  1. Медиана

Медиана – это альтернатива определения  среднего значения. Она считается  по упорядоченному по возрастанию ряду из наблюдений (вариационный ряд). Показывает среднее из большинства. Обозначается med.

Пример: Имеются 10 человек. 9 человек получают 100$, 1 – 10000$. Найти средний доход человека.

Средний доход  человека

Мы видим, что среднее значение малоэффективно и не показывает реальной ситуации.

Используем  медиану.

1)

2) т.к. Т=10, то 

Медиана показала реальное положение  вещей.

Медиана используется, когда есть несколько сильных выбросов, т.е. несколько резко выделяющихся от других значений.

  1. Мода.

Мода – это число, делящее  выборку пополам, т.е. 50% значений лежит выше нее, а 50% - ниже. Обозначается mod.

Пример:

Медиана показывает насколько справедливо  среднее.

  1. Оценки

Введем обозначения:

истинное значение параметра

 оценка параметра 

Т.к. истинное значение параметра неизвестно, то мы его находим (оцениваем) по некоторой  выборке объема Т.

 то число, которое скорее всего  примет истинное значение.

Свойства оценок:

Мы стараемся найти и подобрать  выборку таким образом, чтобы по ней получить оценки, которые:

  1. состоятельны, т.е. при оценка стремится к истинному значению, т.е., чем больше выборка, тем точнее оценка
  2. несмещенность, т.е. математическое ожидание оценки – это истинное значение, т.е. в среднем мы получаем истинное значение
  3. эффективность, т.е. дисперсия оценки – минимальна

Замечание: дисперсия напрямую связана  с точностью оценивания. Чем выше дисперсия, тем больше варьируемость признака, тем менее точный результат мы получаем.

 

 

Модель парной линейной регрессии

 

Пусть Y,X – две выборки объема Т.


Возникает вопрос. Связаны ли они между собой? Если да, то как, и как выразить эту  связь количественно?

   У


 

 

 

 

 

 

 

 

 


                                                                                                  Х

Необходимо подобрать  а и b такими, чтобы линия была как можно ближе ко всем значениям. a и b – неизвестные параметры. Необходимо подобрать a и b, минимизировав меру расстояния от точек, до получившейся прямой. В качестве меры можно взять сумму квадратов отклонения от среднего

Т.е. мы суммируем квадраты расстояния в каждой точке между наблюдаемым  значением и тем, что лежит на линии. Берется квадрат расстояний, чтобы большим расстояниям придать больший вес, а также избежать отрицательных значений.

Иногда в качестве меры отклонения берут модуль расстояния

Но вычисления с модулем гораздо сложнее. Мы будем использовать квадрат отклонений.

Для нахождения неизвестных параметров а и b, имея в распоряжении выборки Y и X объема Т, нам необходимо минимизировать следующее расстояние

Мы ищем линию, которая будет максимально близко лежать от этих точек.

Применяя  метод Лагранжа в решении подобных задач, получаем что:

,

где

Мы получили оценки неизвестных параметров a и b, удовлетворяющие свойствам оценок, с помощью которых можно построить уравнение регрессии и найти качественную зависимость между X и Y.

,   ,  

- вектор из двух букв a и b.

В данном случае построить регрессию, значит найти оценку вектора .

- матричная форма записи

 

 

Теорема Гаусса-Маркова

 

Основная теорема линейной регрессии.

Пусть есть Х и У выборки объема Т.

1)

2) - детерминированное (т.е. случайная величина)

3) а) 

    б) или  к нормальной линейной регрессии

Оценки  и получены методом наименьших квадратов, являются лучшими в классе линейных несмещенных оценок, т.к. обладают наименьшей дисперсией.

Замечание: наши оценки являются наилучшими, если мы оцениваем модель, линейную по параметру.

Пример: - линейная модель, т.к. ,

или - линейная модель по параметру

-нелинейная модель

Замечание: остатки после построения регрессии должны иметь нормальное распределение с параметрами математическое ожидание=0 и дисперсия=0, т.е., оценив регрессию, мы должны проверить остатки на нормальность.

Оценив параметры модели, мы хотим  узнать, насколько точно мы оценим коэффициент. Точность оценки связана  с ее дисперсией.

Поэтому найдем дисперсию  и . Для простоты расчетов введем обозначения:

 

Тогда дисперсия  оценки будет равна:

Теперь  у нас есть наилучшие  оценки коэффициентов регрессии a и b, однако в регрессионном уравнении есть еще один неизвестный параметр – это дисперсия ошибок .

Из  этих двух формул следует, что чем больше измерений, тем точнее результат и меньше дисперсии.

Рассмотрим  дисперсию ошибок более подробно.

Обозначим через  - прогноз в точке

Тогда остатки моделей  будут собой представлять разницу между истинными и прогнозируемыми значениями.

- случайные величины, но  - остатки, - ошибки

Но  остатки в отличие  от ошибок ненаблюдаемы, поэтому для оценки дисперсии ошибок проще рассмотреть  ее через остатки.

Попробуем выразить дисперсию ошибок через остатки модели.

Поскольку математическое ожидание у ошибок и остатков нулевое, то дисперсия  выражается через  математическое ожидание суммы:

 

 - неизвестная дисперсия  остатков

Замечание: неизвестная дисперсия остатка связана с количеством наблюдений (их должно быть как можно больше) и с ошибками (они должны быть как можно меньше). Поэтому из двух подобранных моделей мы выбираем ту, которая точнее строит прогнозы даже если она построена по выборке объемом с меньшим Т.

Ковариационная  матрица

 

Симметричная  диагональная матрица, на диагонали  у которой стоят дисперсии; - выборки объема Т.

Также можно построить корреляционную матрицу, на диагонали которой 1 –  диагональная симметричная матрица, у  которой остальные элементы –  это соответствующие коэффициенты корреляции, характеризующие силу связи  и изменяющиеся от [-1;1]

Замечание: Таким образом, используя корреляционную матрицу для построения регрессии, мы выбираем тот Х, коррелированность с Y которого по модулю наибольшая, т.е. мы выбираем тот параметр Х для получения наилучших результатов, сила связи которого с Y наибольшая, т.е. коэффициент по модулю наибольший.

Дисперсионный анализ

 

Попробуем разложить дисперсию изменчивости явления на две составляющие –  объясненную регрессией и необъясненную.

                                                                                            I                      II                      III

ESS – дисперсия, необъясненная уравнением, та, которая осталась неизвестной в остатке.

RSS – та часть дисперсии, которая объяснена регрессионным уравнением.

На основании этого вводится – коэффициент детерминации, характеризующий долю объясненной дисперсии с помощью данного регрессионного уравнения в общей дисперсии.

Этот коэффициент используется для выбора наилучшей модели из множества построенных.

Если  , то мы ничего не объяснили с помощью построенной регрессии

Если  , то мы учли всю изменчивость признака.

Из двух моделей выбирается та, у которой:

  1. все коэффициенты значимы
  2. максимально простая (т.е. как можно меньше параметров)
  3.   как можно больше
  4. экономическая интерпретируемость коэффициентов (объясняемость)
  5. как можно более точный прогноз (при работе с выборкой отсекаются 5-10 значений, на которые и строится прогноз)

Модель множественной регрессии

 

Обобщением двумерной или парной линейной регрессии служит многомерная  линейная регрессия

  -уравнение многомерной линейной регрессии,

где

Основные гипотезы:

1)

спецификация  модели - вид, линейный по параметрам

  1.   - не зависит от t
  2. - независимые параметры; y – зависимый

Запишем это уравнение в матричной  форме

                          

 

Построить такое уравнение регрессии означает найти оценку параметра, т.е. оценку вектора а.

По теореме  Маркова-Гаусса если выполняются основные гипотезы  1,2,3,4, то можно применить  метод наименьших квадратов, с помощью  которого получится следующее уравнение:

, где  - икс транспонированный

Т.к. мы находим оценки коэффициентов, а не их истинное значение, то нам  хотелось бы оценить точность оценивания.

Она связана с вариацией оценки, т.е. с дисперсией: чем больше дисперсия, тем меньше точность и больше вариация. Тогда:

(**)

Используя правила перемножения матриц, получаем:

Замечание: из формулы (**) видно, что чем больше параметров, тем больше дисперсия. Поэтому мы выбираем максимально простую модель.

Оценивание качества многомерной линейной регрессии осуществляется так же, как и двумерной, но следует помнить, что растет с увеличением параметров, поэтому с помощью можно сравнивать только модели с одинаковым количеством зависимых параметров.

Спецификация модели

 

Под спецификацией понимают выбор  параметров регрессии . Т.к. на практике исследуется приближенная модель, рассмотрим соотношение между МНК-оценками параметров выбранной и истинной модели.

Рассмотрим два случая:

  1. Исключение. В модель не включали существенные параметры. Тогда оценивается модель,

где z - часть существенных параметров.

Информация о работе Лекции по "Эконометрике"