Метод наименьших квадратов

Автор работы: Пользователь скрыл имя, 22 Октября 2013 в 19:52, реферат

Описание работы

Когда искомая величина может быть измерена непосредственно, как, например, длина отрезка или угол, то, для увеличения точности, измерение производится много раз, и за окончательный результат берут арифметическое среднее из всех отдельных измерений. Это правило арифметической середины основывается на соображениях теории вероятностей; легко показать, что сумма квадратов уклонений отдельных измерений от арифметической середины будет меньше, чем сумма квадратов уклонений отдельных измерений от какой бы то ни было другой величины. Само правило арифметической середины представляет, следовательно, простейший случай метода наименьших квадратов.

Содержание работы

Введение
1. История
2. Постановка задачи
3. Свойства оценок на основе МНК
4. Взвешенный метод наименьших квадратов
5. Системы одновременных уравнений
6. Нелинейная регрессия
7. Авторегрессионное преобразование
8. Применение МНК в экономике
Заключение
Список литературы

Скачать архив (44.05 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Документ Microsoft Word.docx

— 46.43 Кб (Скачать файл)

Обычно в качестве критерия близости используется минимум суммы квадратов разностей наблюдений зависимой переменной у и теоретических, рассчитанных по уравнению регрессии значений (а + bх_i):

Q = e_i²= (y_i-(a+bx_i))²min (16)

считается, что у и х - известные данные наблюдений, а и b - неизвестные параметры линии регрессии. Поскольку функция Q непрерывна, выпукла и ограничена снизу нулем, она имеет минимум. Для соответствующих точке этого минимума значений а и b могут быть найдены простые и удобные формулы (они будут приведены ниже). Метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции, называется Методом наименьших квадратов (МНК), или Least Squares Method (LS).

"Наилучшая" по МНК прямая линия всегда существует, но даже наилучшая не всегда является достаточно хорошей. Если в действительности зависимость y=f(х) является, например, квадратичной (как на рисунке 1(b)), то ее не сможет адекватно описать никакая линейная функция, хотя среди всех таких функций обязательно найдется "наилучшая". Если величины х и у вообще не связаны (рис. 1 (с)), мы также всегда сможем найти "наилучшую" линейную функцию у = а+bх для данной совокупности наблюдений, но в этом случае конкретные значения а и b определяются только случайными отклонениями переменных и сами будут очень сильно меняться для различных выборок из одной и той же генеральной совокупности. Возможно, на рис. 1(с) прямая 1 является наилучшей среди всех прямых линий (в смысле минимального значения функции Q), но любая другая прямая, проходящая через центральную точку "облака" (например, линия 2), ненамного в этом смысле хуже, чем прямая 1, и может стать наилучшей в результате небольшого изменения выборки.

Рассмотрим теперь задачу оценки коэффициентов парной линейной регрессии более формально. Предположим, что связь между х и у линейна: у = +х. Здесь имеется в виду связь между всеми возможными значениями величин х и у, то есть для генеральной совокупности. Наличие случайных отклонений, вызванных воздействием на переменную у множества других, неучтенных в нашем уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин x_iи y_iприобретет вид у_i=+х_i+є_i,. Здесь є_i. - случайные ошибки (отклонения, возмущения). Задача состоит в следующем: по имеющимся данным наблюдений {x_i}, {у_i} оценить значения параметров айв, обеспечивающие минимум величины Q. Если бы были известны точные значения отклонений є_i, то можно было бы (в случае правильности предполагаемой линейной формулы) рассчитать значения параметров и . Однако значения случайных отклонений в выборке неизвестны, и по наблюдениям x_iи у_iможно получить оценки параметров с и р, которые сами являются случайными величинами, поскольку соответствуют случайной выборке. Пусть а - оценка параметра , b - оценка параметра . Тогда оцененное уравнение регрессии будет иметь вид:

y_i=а+bx_i+е_i, (17)

где е_i- наблюдаемые значения ошибок є_i.

Для оценки параметров и воспользуемся МНК, который минимизирует сумму квадратов отклонений фактических значений у_iот расчетных. Минимум ищется по переменным а и b.

Для того, чтобы полученные МНК оценки а и b обладали желательными свойствами, сделаем следующие предпосылки об отклонениях є_i:

1) величина є_iявляется случайной переменной;

2) математическое ожидание є_iравно нулю: М (є_i) = 0;

3) дисперсия є постоянна: D(є_i) = D(є_i) = 2 для всех i, j;

4) значения є_iнезависимы между собой. Откуда вытекает, в частности, что

(18)

Известно, что, если условия 1)-4) выполняются, то оценки, сделанные с помощью МНК, обладают следующими свойствами:

1) Оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению: М(а) =; М(b)=. Это вытекает из того, что М(є_i) = 0, и говорит об отсутствии систематической ошибки в определении положения линии регрессии.

2) Оценки состоятельны, так как дисперсия оценок параметров при возрастании числа наблюдений стремится к нулю:; . Иначе говоря, если п достаточно велико, то практически наверняка а близко к , а b близко к : надежность оценки при увеличении выборки растет.

3) Оценки эффективны, они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра, линейными относительно величин у_i. В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators - наилучшие линейные несмещенные оценки).

Перечисленные свойства не зависят от конкретного вида распределения величин є_i, тем не менее, обычно предполагается, что они распределены нормально N(0;y²). Эта предпосылка необходима для проверки статистической значимости сделанных оценок и определения для них доверительных интервалов. При ее выполнении оценки МНК имеют наименьшую дисперсию не только среди линейных, но среди всех несмещенных оценок.

Если предположения 3) и 4) нарушены, то есть дисперсия возмущений непостоянна и/или значения є. связаны друг с другом, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности - нет. Рассмотрим теперь процедуру оценивания параметров парной линейной регрессии а и b. Для того, чтобы функция Q = e_i²= (y_i-(a+bx_i))²достигала минимума, необходимо равенство нулю ее частных производных:

Если уравнение (19) разделить на n, то получим у=а+bх (здесь - средние значения х и у). Таким образом, линия регрессии проходит через точку со средними значениями х и у. Подставив величину а из (19) в (20), получаем

Откуда

Иначе можно записать, что (где r коэффициент корреляции х и у). Таким образом, коэффициент регрессии пропорционален показателю ковариации и коэффициенту корреляции х и у, а коэффициенты этой пропорциональности служат для соизмерения перечисленных разноразмерных величин. Оценки a и b, очевидно, являются линейными относительно y_i(если x_iсчитать коэффициентами) - выше об этом упоминалось.

Итак, если коэффициент r уже рассчитан, то легко рассчитать коэффициент парной регрессии, не решая системы уравнений. Ясно также, что если рассчитаны линейные регрессии х(у) и у(х), то произведение коэффициентов d_xи b_y, равно r²:

4. Взвешенный метод наименьших квадратов

Далеко не все задачи исследования взаимосвязей экономических переменных описываются обычной линейной регрессионной моделью. Во-первых, исходные данные могут не соответствовать тем или иным предпосылкам линейной регрессионной модели и требовать либо дополнительной обработки, либо иного модельного инструментария. Во-вторых, исследуемый процесс во многих случаях описывается не одним уравнением, а системой, где одни и те же переменные могут быть в одних случаях объясняющими, а в других - зависимыми. В-третьих, исследуемые взаимосвязи могут быть (и обычно являются) нелинейными, а процедура линеаризации не всегда легко осуществима и может приводить к искажениям. В-четвертых, структура описываемого процесса может обусловливать наличие различного рода связей между оцениваемыми коэффициентами регрессии, что также предполагает необходимость использования специальных методов.

Наиболее распространенным в практике статистического оценивания параметров уравнений регрессии является метод наименьших квадратов. Этот метод основан на ряде предпосылок относительно природы данных и результатов построения модели. Основные из них - это четкое разделение исходных переменных на зависимые и независимые, некоррелированность факторов, входящих в уравнения, линейность связи, отсутствие автокорреляции остатков, равенство их математических ожиданий нулю и постоянная дисперсия. Эмпирические данные не всегда обладают такими характеристиками, т.е. предпосылки МНК нарушаются. Применение этого метода в чистом виде может привести к таким нежелательным результатам, как смещение оцениваемых параметров, снижение их состоятельности, устойчивости, а в некоторых случаях может и вовсе не дать решения. Для смягчения нежелательных эффектов при построении регрессионных уравнений, повышения адекватности моделей существует ряд усовершенствований МНК, которые применяются для данных нестандартной природы. Одной из основных гипотез МНК является предположение о равенстве дисперсий отклонений е_i, т.е. их разброс вокруг среднего (нулевого) значения ряда должен быть величиной стабильной. Это свойство называется гомоскедастичностью. На практике дисперсии отклонений достаточно часто неодинаковы, то есть наблюдается гетероскедастичность. Это может быть следствием разных причин. Например, возможны ошибки в исходных данных. Случайные неточности в исходной информации, такие как ошибки в порядке чисел, могут оказать ощутимое влияние на результаты. Часто больший разброс отклонений є_i, наблюдается при больших значениях зависимой переменной (переменных). Если в данных содержится значительная ошибка, то, естественно, большим будет и отклонение модельного значения, рассчитанного по ошибочным данным. Для того, чтобы избавиться от этой ошибки нам нужно уменьшить вклад этих данных в результаты расчетов, задать для них меньший вес, чем для всех остальных. Эта идея реализована во взвешенном МНК. Пусть на первом этапе оценена линейная регрессионная модель с помощью обычного МНК. Предположим, что остатки еi независимы между собой, но имеют разные дисперсии (поскольку теоретические отклонения еi нельзя рассчитать, их обычно заменяют на фактические отклонения зависимой переменной от линии регрессии , для которых формулируются те же исходные требования, что и для є_i). В этом случае квадратную матрицу ковариаций cov(e_i, e_j) можно представить в виде:

(24)

где cov(e_i, e_j)=0 при i j; cov(e_i, e_j)=S²; n - длина рассматриваемого временного ряда.

Если величины известны, то далее можно применить взвешенный МНК, используя в качестве весов величины и минимизируя сумму

(25)

Формула Q, записана для парной регрессии; аналогичный вид она имеет и для множественной линейной регрессии. При использовании IVLS оценки параметров не только получаются несмещенными (они будут таковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чем не взвешенные оценки.

Проблема заключается в том, чтобы оценить величины s², поскольку заранее они обычно неизвестны. Поэтому, используя на первом этапе обычный МНК, нужно попробовать выяснить причину и характер различий дисперсий е_i. Для экономических данных, например, величина средней ошибки может быть пропорциональна абсолютному значению независимой переменной. Это можно проверить статистически и включить в расчет МНК веса, равные .

Существуют специальные критерии и процедуры проверки равенства дисперсий отклонений. Например, можно рассмотреть частное от деления cумм самых больших и самых маленьких квадратов отклонений, которое должно иметь распределение Фишера в случае гомоскедастичности.

Использование взвешенного метода в статистических пакетах, где предоставлена возможность задавать веса вручную, позволяет регулировать вклад тех или иных данных в результаты построения моделей. Это необходимо в тех случаях, когда мы априорно знаем о не типичности какой-то части информации, т.е. на зависимую переменную оказывали влияние факторы, заведомо не включаемые в модель. В качестве примера такой ситуации можно привести случаи стихийных бедствий, засух. При анализе макроэкономических показателей (ВНП и др.) данные за эти годы будут не совсем типичными. В такой ситуации нужно попытаться исключить влияние этой части информации заданием весов. В разных статистических пакетах приводится возможный набор весов. Обычно это числа от О до 100. По умолчанию все данные учитываются с единичными весами. При указании веса меньше 1 мы снижаем вклад этих данных, а если задать вес больше единицы, то вклад этой части информации увеличится. Путем задания весового вектора мы можем не только уменьшить влияние каких - либо лет из набора данных, но и вовсе исключить его из анализа. Итак, ключевым моментом при применении этого метода является выбор весов. В первом приближении веса могут устанавливаться пропорционально ошибкам не взвешенной регрессии.[1]

5. Системы одновременных уравнений

При статистическом моделировании экономических ситуаций часто необходимо построение систем уравнений, когда одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать, с одной стороны, в роли результирующих, объясняемых переменных, а с другой стороны - в роли объясняющих переменных. Такие системы уравнений принято называть системами одновременных уравнений. При этом в соотношения могут входить переменные, относящиеся не только к текущему периоду t, но и к предшествующим периодам. Такие переменные называются лаговыми. Переменные за предшествующие годы обычно выступают в качестве объясняющих переменных.

В качестве иллюстрации приведем пример из экономики. Рассмотрим модель спроса и предложения. Как известно, спрос D на некоторый продукт зависит от его цены р. От этого же параметра, но с противоположным по знаку коэффициентом, зависит и предложение этого продукта. Силы рыночного механизма формируют цену таким образом, что спрос и предложение уравниваются. Нам нужно построить модель описанной ситуации. Для этого имеются данные об уровне равновесных цен и спросе (который равен предложению). Представленную ситуацию можно формализовать в виде следующей линейной модели:

(25)

спрос пропорционален цене с коэффициентом пропорциональности a₁<0, т.е. связь отрицательная;

(26)

предложение пропорционально цене с коэффициентом пропорциональности а₂>0, т.е. связь положительная;

(27)

Здесь е_l, е'_l\, (l=1,...,n) - ошибки модели, имеющие нулевое математическое ожидание.

Первые два из представленных уравнений, если их рассматривать отдельно, могут показаться вполне обычными. Мы можем определить коэффициенты регрессии для каждого из этих уравнений. Но в этом случае остается открытым вопрос о равенстве спроса и предложения, т.е. может не выполняться третье равенство, в котором спрос выступает в качестве зависимой переменной. Поэтому расчет параметров отдельных уравнений в такой ситуации теряет смысл.

Экономическая модель как система одновременных уравнений может быть представлена в структурной или в приведенной форме. В структурной форме ее уравнения имеют исходный вид, отражая непосредственные связи между переменными. Приведенная форма получается после решения модели относительно эндогенных (внутренних) переменных, то есть выражения этих переменных только через экзогенные (задаваемые извне) переменные и параметры модели. Например, в модели спроса и предложения эндогенными являются переменные p_l, S_l, D_l, ее параметры - a₁, a₂, b₁, b₂, а экзогенных переменных в ней нет. Таким образом, в приведенной форме переменные p_l, S_l, D_l, должны выражаться только через параметры модели. Подставив S_lи D_lиз (24) и (25) в (26), получаем

Информация о работе Метод наименьших квадратов