Автор работы: Пользователь скрыл имя, 24 Марта 2012 в 12:22, контрольная работа
Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при построении модели потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов.
Рис. 1. Графическая иллюстрация взаимодействия факторов:
а – х1 влияет на у, причем это влияние одинаково как при х3 = В1, так и при х3 = В2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х1 и х3;
б - с ростом х1 результативный признаку возрастает при х3 = В1 ; с ростом х1 результативный признак у снижается при х3 = В2. Между х1 и х3 существует взаимодействие.
Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинаций азота и фосфора).
Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.
Пусть, например, рассматривается двухфакторная регрессия вида , , для которой факторы х1 и х2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например, х2) рассматривается как зависимая переменная. Предположим, известно, что .
Подставляя это уравнение в искомое вместо х2, получим:
или
Если , то, разделив обе части равенства на , получим уравнение вида:
которое представляет
собой приведенную форму
К нему для оценки параметров может быть применен метод наименьших квадратов.
Отбор факторов,
включаемых в регрессию, является одним
из важнейших этапов практического
использования методов
Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:
• метод исключения;
• метод включения;
• шаговый регрессионный анализ.
Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты — отсев факторов из полного его набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).
На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6—7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.
1.2. Предпосылки метода наименьших квадратов.
Обобщенный метод наименьших квадратов
При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки относительно случайной составляющей ε. В модели
случайная составляющая е представляет собой ненаблюдаемую величину. После того, как произведена оценка параметров модели, рассчитывая разности фактических и теоретических значений результативного признака у, можно определить оценки случайной составляющей у - . Поскольку они не есть реальные случайные остатки, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т. е. .
При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений , т. е. остаточных величин.
В предыдущих разделах мы останавливались на формальных проверках статистической достоверности коэффициентов регрессии и корреляции с помощью (для коэффициентов корреляции). При использовании t-критерия Стьюдента, F-критерия Фишера и Z-преобразования делаются предположения относительно поведения остатков - остатки представляют собой независимые случайные величины и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.
Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей . Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.
Коэффициенты регрессии, найденные исходя из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bi, можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.
Для практических целей важна не только несмещенность, но и эффективность oценок. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному.
Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице.
Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому очень важно исследовать поведение остаточных величин регрессии . Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.
Исследования остатков г{ предполагают проверку наличия следующих пяти предпосылок МНК:
• случайный характер остатков;
• нулевая средняя величина остатков, не зависящая от хi;
• гомоскедастичность — дисперсия каждого отклонения одинакова для всех значений х;
• отсутствие автокорреляции остатков. Значения остатков распределены независимо друг от друга;
•
остатки подчиняются
В тех случаях, когда все пять предпосылок выполняются, оценки, полученные по МНК и по методу максимального правдоподобия, совпадают между собой. Если распределение случайных остатков не соответствует некоторым предпосылкам МНК, то следует корректировать модель.
Прежде всего проверяется случайный характер остатков — первая предпосылка МНК.
С этой целью стоится график зависимости остатков от теоретических значений результативного признака (рис. 2).
Рис.2. Зависимость случайных остатков от теоретических значений
Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения у.
Возможны следующие случаи: если зависит от , то:
• остатки не случайны (рис. 3а);
Рис.3. Зависимость случайных остатков от теоретических значений
• остатки , не имеют постоянной дисперсии (рис. 3в);
• остатки носят систематический характер (рис. 3б), в данном случае отрицательные значения , соответствуют низким значениям , а положительные — высоким значениям.
В случаях а), б), в) (рис. 3) необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.
Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных. Так, для модели вида
Вместе с тем несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин x, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков ε от теоретических значений результативного признака строится график зависимости случайных остатков ε от факторов, включенных в регрессию хi (рис. 4).
Рис. 4. Зависимость случайных остатков от величины фактора xj.
Если остатки на графике расположены в виде горизонтальной полосы (см. рис.4), то они независимы от значений хj. Если же график показывает наличие зависимости εi и хj то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора хj. Может быть неправильна спецификация модели и в нее необходимо ввести дополнительные члены от хj, например хj2 или преобразовать значения у. Скопление точек в определенных участках значений фактора хj говорит о наличии систематической погрешности модели.
Корреляция случайных остатков с факторными признаками позволяет проводить корректировку модели, в частности использовать кусочно-линейные модели.
Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессий и корреляции с помощью критериев t, F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки МНК.
Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.
В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хj остатки εi , имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно видеть из поля корреляции (рис. 5).
Рис. 5. Примеры гетероскедастичности:
а — дисперсия остатков растет по мере увеличения х;
б — дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х;
в — максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х
Гомоскедастичность остатков означает, что дисперсия остатков εi одинакова для каждого значения х. Используя трехмерное изображение, получим графики, иллюстрирующие гомо- и гетероскедастичность (рис. 6).
a)Гомоскедастичность остатков б)Гетероскедастичность остатков
Рис. 6. Гомоскедастичность и гетероскедастичность остатков