Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 16:51, курс лекций
Анализ невременных данных.
Характеристики случайной величины.
Модель парной линейной регрессии.
Теорема Гаусса-Маркова.
Ковариационная матрица.
Дисперсионный анализ.
Модель множественной регрессии.
Спецификация модели.
Dummy – переменные, фиктивные переменные.
Мы оцениваем
- истинная оценка
Найдем математическое ожидание полученной оценки
Получаем смещенные оценки, т.е. оценка не такая хорошая, но можно показать, что ее дисперсия будет меньше.
Пусть истинная модель: , а оценивается модель:
Выписывая оценку коэффициентов b в оцениваемой модели, можно показать, что
оценка несмещенная, но дисперсия , где – матрица, зависящая от z, т.е. дисперсия оценки увеличивается от включения в модель несущественных параметров.
Следствие: выбирая из двух зол наименьшее, лучше не включать часть существенных параметров, чем включить несущественные.
Как правило,
независимые переменные в регрессионных
моделях имеют непрерывные
Например: рассмотрим в качестве зависимой переменной – заработная плата, а - набор объясняющих переменных.
Хотим в модель включить новую бинарную переменную, отвечающую за наличие или отсутствие высшего образования. Тогда необходимо включить в модель новую переменную d (d=1, если t-ый рабочий имеет высшее образование; d=0, если не имеет)
и рассмотреть новую модель
Тогда средняя заработная плата для людей без высшего образования = ; с высшим образованием =
Т.е. коэффициент интерпретируется как среднее изменение з/п при переходе из одной категории в другую при неизменных остальных параметрах. Т.е. люди с высшим образованием получают на рублей больше. Если коэффициент перед незначим, т.е. его р>0,05, то различий в з/п между категориями нет.
Замечание: качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно 0 и1. Но тогда интегрируемость коэффициента усложняется.
Замечание: если включающаяся в модель dummy переменная имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений, но тогда, во-первых, затрудняется интерпретация, во-вторых, подразумевается одинаковое различие между состояниями признака. Поэтому вводят несколько бинарных переменных.
Пример: пусть оценивается стоимость мобильного телефона. В качестве дискретного признака выступает вид телефона:
Вводятся 4 бинарных переменных
, если телефон обычный; , в остальных случаях
, если телефон слим; , в остальных случаях
, если телефон раскладушка; , в остальных случаях
, если телефон вертушка; , в остальных случаях
Мы не включили в модель , т.к. тогда для любой строки выполнялось бы , т.е. регрессоры были бы линейно зависимы, т.е. мы не смогли бы получить МНК-оценку параметров, т.к. не смогли бы обратить матрицу.
Средняя стоимость телефона слим: , раскладушка: , вертушка:
Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные.
Пример: если рассматривается вторичный рынок квартир в Москве, то зависимая переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:
, если одна комната; , если нет
, если две комнаты; , если нет
, если три комнаты; , если нет
, если четыре комнаты; , если нет
В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.
После построения регрессионного уравнения и оценки значимости ее коэффициентов, можно получить предсказанное значение результата с помощью точного прогноза при заданном значении фактора . Для этого в полученное уравнение регрессии надо подставить факторы , после чего получить прогноз. Это так называемый точечный прогноз, но он не дает требуемых представлений, и мало применим на практике. Поэтому дополнительно необходимо осуществить определение стандартной ошибки прогнозирования и получить интервальную оценку прогнозного значения.
Чтобы построить интервальный прогноз, необходимо найти верхнюю и нижнюю границы. Найдем сначала формулу стандартной ошибки прогнозирования . Вставим в формулу линейной регрессии значение параметра . Тогда уравнение регрессии имеет следующий вид:
Из этой формулы следует, что стандартная ошибка прогнозирования зависит от ошибки y-среднее и ошибки коэффициента регрессии b. Тогда
, если - неизвестна, то ее заменяют на оценку дисперсии
Учитывая ошибку регрессии ,получаем следующую формулу для прогноза:
Тогда интервальный прогноз или доверительный интервал прогнозируемого значения рассчитывается следующим образом:
, где -предельная ошибка прогноза
- кванти с уровнем доверия
Например: =0,95, то истинное значение попадет в доверительный интервал с вероятностью 0,95
Строя прогноз, мы хотим получить как можно более точный прогноз и как можно меньший интервал (узкий), но чем выше , тем дальше друг от друга границы интервала и наоборот. Поэтому приходится искать компромисс. Часто в задачах задано заказчиками исследования. Поэтому, строя модель, мы должны помнить, что хорошая модель – это та, интервальные прогнозы, по которой достаточно точные и границы не слишком далеко друг от друга, а сам интервал неширокий.
Замечание: если построенная по выборке модель имеет высокий , все оценки значимы, остатки близки к нормальным, но прогнозы неточные, широкие интервалы прогнозирования (плохая прогностическая способность модели), то, возможно, вы просто подогнали модель под данные и она не подходит, т.е. ее надо переделать, т.е. прогнозирование можно использовать в качестве оценки качества модели.
Выбор параметров линейной регрессии (процедура пошагового отбора)
При построении регрессии для подбора наиболее подходящих параметров используется либо метод включений, либо метод исключений.
Смысл метода включений:
1) По матрице корреляций
|
2) Строится парная регрессия Y на этот параметр .
3) Если коэффициент линейной регрессии значим, т.е. р<0,05, то параметр остается а
4) Берется следующий параметр.
5) Строится регрессия Y на
Оценивается значимость коэффициентов.
Если коэффициент при
Если не значим – смотри пункт 4)
7) После
рассмотрения последнего
8) Рассматриваем
более детально не вошедшие
в модель параметры и пытаемся
определить, с чем связано их
не влияние: либо неудачная
выборка, либо неправильно
Смысл метода исключений:
По окончании процедуры должна получиться регрессия , где все параметры значимы.
Рассмотрим более детально не вошедшие в модель параметры.
Выбросы – в экономике ими называются резко отличающиеся от других значения.
цена
№1 №2
Если рассматривать мобильные телефоны, зависимость цены от времени работы, то №1, №2, №3 – считаются выбросами, т.к. №1 и №2 имеют слишком большую цену, а у №3 при самом большом времени работы самая маленькая цена.
5%-10% от выборки.
Встает проблема определения выбросов.
Существует множество процедур определения выбросов. Рассмотрим один из них.
Рассмотрим зависимость Y от параметров
Y -----------------
-------------------
Для определения того, является ли значение выбросом или нет, используют следующее: строят интервал следующего вида: математическое ожидание параметра минус два стандартных отклонения : -левая граница
-правая граница
Те значения параметра, которые не попадут в этот интервал, считаются выбросами.
Если при построении регрессии параметров несколько, то сначала по каждому из параметров определяются номера выбросов, а затем либо все они считаются выбросами, либо только наиболее часто встречаемые номера.
Обязательное условие этой процедуры – это пояснение, почему то или иное наблюдение является выбросом.
При работе с финансовыми показателями
и макроэкономическими
Например: по одному из регионов России отсутствует значение одного из параметров. В этом случае возможны два варианта:
а) ставится среднее
б) нулевое
в) по аналогии с похожим наблюдением
г) используется метод линейной аппроксимации.
Вопрос о заполнении пропущенных значений при работе с реальными данными встречается довольно часто. До сих пор этот вопрос не решен окончательно.
По виду этого графика делаются выводы о наличии или отсутствии зависимости и о виде этой зависимости.
Интерпретируются знаки
Если , то один из них исключается
, количество параметров
Подбирая спецификацию модели можно использовать следующие соображения:
а) lnY, тогда зависимая переменная не уйдет в минус и зависимость Y от X постепенно, т.е. при изменении параметра X на 1, Y меняется в процентах.
б) берется параметр в квадрате, если с увеличением X его влияние на Y возрастает.
в) ln параметра. В этом случае с ростом значения параметра, влияние на Y уменьшается.
г) использование взаимодействия параметров, например их перемножение.
После их удаления п.4-п.7 и сравниваются.
а) описание экономического смысла модели
б) интерпретация коэффициентов и знаков перед ними
в) анализ точности прогнозирования и ширины интервала
г) описание выбросов
Раздел II
Анализ силы связи порядковых и категориальных переменных
Количественные (или номинальные) переменные – переменные, выражающиеся в числах в определенных единицах измерения.
Категориальные переменные – это переменные, принимающие конечное число значений, состоящих из категорий, которые неупорядочены относительно друг друга. Чаще всего выражаются не в числах.
Например: цвет, уровень образования, страна, фамилия.
Порядковые переменные – это категориальные переменные, для которых определено отношение порядка, т.е. они ранжированы относительно друг друга.