Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 16:51, курс лекций
Анализ невременных данных.
Характеристики случайной величины.
Модель парной линейной регрессии.
Теорема Гаусса-Маркова.
Ковариационная матрица.
Дисперсионный анализ.
Модель множественной регрессии.
Спецификация модели.
Dummy – переменные, фиктивные переменные.
Лекции по эконометрике
Эконометрика – это наука, объединяющая различные статистические методы, используемые для наблюдения за ходом развития экономики, ее анализа и прогнозов, а также для выявления взаимосвязей между экономическими явлениями.
Задачи:
Раздел I
Мы будем работать с данными, которые не являются временными, т.е. их можно переставлять местами, не меняя смысла
Случайная величина (с.в.) x – это числовая функция, заданная на некотором вероятностном пространстве.
Функция распределения с.в. x– это числовая функция числового аргумента, заданная равенством: F(x)=P(x C)
Обозначается E(x). Показывает среднее ожидаемое значение.
Если x – дискретная с.в., то
Если x – непрерывная с.в., то , где f(x) – плотность распределения.
Т.к. при работе с данными мы не знаем вероятности, то математическое ожидание считается как , где n – количество наблюдений
Свойства математического ожидания:
Обозначается D[x]=V(x). Дисперсия – это среднее отклонение от среднего, т.е. на сколько в среднем большинство значений отклонится от математического ожидания, т.е. большинство значений будет лежать в интервале:
Свойства дисперсии:
Обозначается Cov(x,y). Показывает однонаправленность двух случайных величин, т.е. ковариация – это мера линейной зависимости с.в.
Свойства ковариации:
Т.к. ковариация меняется от до , то использовать ее как меру линейной связи, неудобно, поэтому вводят понятие корреляции.
Обозначается Corr(x,y). Показывает силу линейной связи в интервале
Свойства корреляции:
1)
2) Если , то между x и y связи нет.
3) Если , то связь сильная положительная, т.е. рост x вызывает рост y и наоборот.
Замечание: если , т.е. линейной связи нет, то это не значит, что нет нелинейной связи.
Ложная корреляция.
При использовании следует помнить, что он показывает наличие только линейной связи. Ложная корреляция – в ряде случаев неправильно выбраны случайные величины, между которыми ищется корреляционная связь.
Пример: Если искать связь между длиной волос и ростом, то получится, что чем выше человек, тем короче у него волосы. Ошибка в том, что следует рассматривать эту зависимость отдельно по мужчинам и отдельно по женщинам.
Медиана – это альтернатива определения среднего значения. Она считается по упорядоченному по возрастанию ряду из наблюдений (вариационный ряд). Показывает среднее из большинства. Обозначается med.
Пример: Имеются 10 человек. 9 человек получают 100$, 1 – 10000$. Найти средний доход человека.
Средний доход человека
Мы видим, что среднее значение малоэффективно и не показывает реальной ситуации.
Используем медиану.
1)
2) т.к. Т=10, то
Медиана показала реальное положение вещей.
Медиана используется, когда есть несколько сильных выбросов, т.е. несколько резко выделяющихся от других значений.
Мода – это число, делящее выборку пополам, т.е. 50% значений лежит выше нее, а 50% - ниже. Обозначается mod.
Пример:
Медиана показывает насколько справедливо среднее.
Введем обозначения:
истинное значение параметра
оценка параметра
Т.к. истинное значение параметра неизвестно, то мы его находим (оцениваем) по некоторой выборке объема Т.
то число, которое скорее всего примет истинное значение.
Свойства оценок:
Мы стараемся найти и
Замечание: дисперсия напрямую связана с точностью оценивания. Чем выше дисперсия, тем больше варьируемость признака, тем менее точный результат мы получаем.
Модель парной линейной регрессии
Пусть Y,X – две выборки объема Т.
Возникает вопрос. Связаны ли они между собой? Если да, то как, и как выразить эту связь количественно?
У
Необходимо подобрать а и b такими, чтобы линия была как можно ближе ко всем значениям. a и b – неизвестные параметры. Необходимо подобрать a и b, минимизировав меру расстояния от точек, до получившейся прямой. В качестве меры можно взять сумму квадратов отклонения от среднего
Т.е. мы суммируем квадраты расстояния в каждой точке между наблюдаемым значением и тем, что лежит на линии. Берется квадрат расстояний, чтобы большим расстояниям придать больший вес, а также избежать отрицательных значений.
Иногда в качестве меры отклонения берут модуль расстояния
Но вычисления с модулем гораздо сложнее. Мы будем использовать квадрат отклонений.
Для нахождения неизвестных параметров а и b, имея в распоряжении выборки Y и X объема Т, нам необходимо минимизировать следующее расстояние
Мы ищем линию, которая будет максимально близко лежать от этих точек.
Применяя метод Лагранжа в решении подобных задач, получаем что:
,
где
Мы получили оценки неизвестных параметров a и b, удовлетворяющие свойствам оценок, с помощью которых можно построить уравнение регрессии и найти качественную зависимость между X и Y.
, ,
- вектор из двух букв a и b.
В данном случае построить регрессию, значит найти оценку вектора .
- матричная форма записи
Теорема Гаусса-Маркова
Основная теорема линейной регрессии.
Пусть есть Х и У выборки объема Т.
1)
2) - детерминированное (т.е. случайная величина)
3) а)
б) или к нормальной линейной регрессии
Оценки и получены методом наименьших квадратов, являются лучшими в классе линейных несмещенных оценок, т.к. обладают наименьшей дисперсией.
Замечание: наши оценки являются наилучшими, если мы оцениваем модель, линейную по параметру.
Пример: - линейная модель, т.к. ,
или - линейная модель по параметру
-нелинейная модель
Замечание: остатки после построения регрессии должны иметь нормальное распределение с параметрами математическое ожидание=0 и дисперсия=0, т.е., оценив регрессию, мы должны проверить остатки на нормальность.
Оценив параметры модели, мы хотим узнать, насколько точно мы оценим коэффициент. Точность оценки связана с ее дисперсией.
Поэтому найдем дисперсию и . Для простоты расчетов введем обозначения:
Тогда дисперсия оценки будет равна:
Теперь у нас есть наилучшие оценки коэффициентов регрессии a и b, однако в регрессионном уравнении есть еще один неизвестный параметр – это дисперсия ошибок .
Из этих двух формул следует, что чем больше измерений, тем точнее результат и меньше дисперсии.
Рассмотрим дисперсию ошибок более подробно.
Обозначим через - прогноз в точке
Тогда остатки моделей будут собой представлять разницу между истинными и прогнозируемыми значениями.
- случайные величины, но - остатки, - ошибки
Но остатки в отличие от ошибок ненаблюдаемы, поэтому для оценки дисперсии ошибок проще рассмотреть ее через остатки.
Попробуем выразить дисперсию ошибок через остатки модели.
Поскольку математическое ожидание у ошибок и остатков нулевое, то дисперсия выражается через математическое ожидание суммы:
- неизвестная дисперсия остатков
Замечание: неизвестная дисперсия остатка связана с количеством наблюдений (их должно быть как можно больше) и с ошибками (они должны быть как можно меньше). Поэтому из двух подобранных моделей мы выбираем ту, которая точнее строит прогнозы даже если она построена по выборке объемом с меньшим Т.
Симметричная диагональная матрица, на диагонали у которой стоят дисперсии; - выборки объема Т.
Также можно построить корреляционную
матрицу, на диагонали которой 1 –
диагональная симметричная матрица, у
которой остальные элементы –
это соответствующие
Замечание: Таким образом, используя корреляционную матрицу для построения регрессии, мы выбираем тот Х, коррелированность с Y которого по модулю наибольшая, т.е. мы выбираем тот параметр Х для получения наилучших результатов, сила связи которого с Y наибольшая, т.е. коэффициент по модулю наибольший.
Попробуем
разложить дисперсию
ESS – дисперсия, необъясненная уравнением, та, которая осталась неизвестной в остатке.
RSS – та часть дисперсии, которая объяснена регрессионным уравнением.
На основании этого вводится – коэффициент детерминации, характеризующий долю объясненной дисперсии с помощью данного регрессионного уравнения в общей дисперсии.
Этот коэффициент используется для выбора наилучшей модели из множества построенных.
Если , то мы ничего не объяснили с помощью построенной регрессии
Если , то мы учли всю изменчивость признака.
Из двух моделей выбирается та, у которой:
Обобщением двумерной или
-уравнение многомерной линейной регрессии,
где
Основные гипотезы:
1)
спецификация модели - вид, линейный по параметрам
Запишем это уравнение в матричной форме
Построить такое уравнение регрессии означает найти оценку параметра, т.е. оценку вектора а.
По теореме Маркова-Гаусса если выполняются основные гипотезы 1,2,3,4, то можно применить метод наименьших квадратов, с помощью которого получится следующее уравнение:
, где - икс транспонированный
Т.к. мы находим оценки коэффициентов, а не их истинное значение, то нам хотелось бы оценить точность оценивания.
Она связана с вариацией оценки, т.е. с дисперсией: чем больше дисперсия, тем меньше точность и больше вариация. Тогда:
(**)
Используя правила перемножения матриц, получаем:
Замечание: из формулы (**) видно, что чем больше параметров, тем больше дисперсия. Поэтому мы выбираем максимально простую модель.
Оценивание качества многомерной линейной регрессии осуществляется так же, как и двумерной, но следует помнить, что растет с увеличением параметров, поэтому с помощью можно сравнивать только модели с одинаковым количеством зависимых параметров.
Под спецификацией понимают выбор параметров регрессии . Т.к. на практике исследуется приближенная модель, рассмотрим соотношение между МНК-оценками параметров выбранной и истинной модели.
Рассмотрим два случая:
где z - часть существенных параметров.