Отбор факторов в модель множественной регрессии

Автор работы: Пользователь скрыл имя, 16 Января 2014 в 22:42, реферат

Описание работы

Невозможность использования «классических» подходов при построении эконометрических моделей в условиях плохой обратимости матрицы (X¢X) обусловливает необходимость применения при оценке их параметров специальных процедур и методов, которые позволяют снизить отрицательное влияние высокой корреляции между объясняющими переменными на точность и достоверность получаемых оценок.
Целью данной работы является изучение проблем мультиколлинеарности в регрессионных моделях, исследование некоторых приемов и методов оценки коэффициентов эконометрической модели в условиях сильной корреляционной зависимости (мультиколлинеарности) между объясняющими переменными и применение их в конкретных практических ситуациях.

Содержание работы

Введение
3
Глава 1. Причины возникновения, признаки обнаружения и методы устранения мультиколлинеарности
4
Установление наличия мультиколлинеарности
4
Причины возникновения мультиколлинеарности и её последствия
6
Методы устранения мультиколлинеарности
8
Глава 2. Отбор факторов в модель множественной регрессии
12
Метод исключения факторов
12
Пошаговый регрессионный анализ
17
Заключение
22
Литература

Файлы: 1 файл

nauchnaya_rabota_Beschastnoy_A.doc

— 394.00 Кб (Скачать файл)

Содержание

Введение

3

Глава 1. Причины  возникновения, признаки обнаружения  и методы устранения мультиколлинеарности

4

    1. Установление наличия мультиколлинеарности

4

    1. Причины возникновения мультиколлинеарности и её последствия

6

    1. Методы устранения мультиколлинеарности

8

Глава 2. Отбор  факторов в модель множественной  регрессии

12

    1. Метод исключения факторов

12

    1. Пошаговый регрессионный анализ

17

Заключение

22

Литература

23


 

 

 

 

 

 

Введение.

Существование сильной линейной зависимости между  переменными, входящими в правую часть эконометрической модели и характеризующейся близостью значений коэффициентов парной корреляции ряда столбцов матрицы Х к единице, вызывает целый ряд проблем при оценке коэффициентов этой модели.

Это явление делает матрицу X¢X  плохо обусловленной (ее детерминант становится близким, а в пределе равным нулю), и в этом случае, МНК и  методы оценки коэффициентов модели, не могут быть использованы. Плохая обусловленность матрицы X¢X своим приводит к ухудшению точности оценок коэффициентов модели, росту их дисперсий. Оценки коэффициентов модели становятся чрезвычайно чувствительными к незначительным изменениям исходных данных (значений элементов вектора у и матрицы X), а также к ошибкам округлений числовых данных расчетов, неизбежным при обращении матрицы X¢X [6].

Невозможность использования «классических» подходов  при построении эконометрических моделей  в условиях плохой обратимости матрицы (X¢X) обусловливает необходимость применения при оценке их параметров  специальных процедур и методов, которые позволяют снизить отрицательное влияние высокой корреляции между объясняющими переменными на точность и достоверность получаемых оценок.

Целью данной работы является изучение проблем  мультиколлинеарности в регрессионных  моделях, исследование некоторых приемов и методов оценки коэффициентов эконометрической модели в условиях сильной корреляционной зависимости (мультиколлинеарности) между объясняющими переменными и применение их в конкретных практических ситуациях.

 

 

 

 

Глава 1. Причины возникновения, признаки обнаружения и методы устранения мультиколлинеарности

Наибольшие  затруднения в использовании  аппарата множественной регрессии  возникают при наличии мультиколлинеарности факторных переменных, когда более  чем два фактора связаны между  собой линейной зависимостью.

Мультиколлинеарностью для линейной множественной регрессии  называется наличие линейной зависимости  между факторными переменными, включёнными  в модель.

В решении проблемы мультиколлинеарности можно выделить несколько этапов:

  1. Установление наличия мультиколлинеарности
  2. Определение причин возникновения мультиколлинеарности.
  3. Разработка мер по устранению мультиколлинеарности.
    1. Установление наличия мультиколлинеарности

При нарушении  правил, лежащих в основе построения линейной модели множественной регрессии возникает мультиколлинеарность.

Мультиколлинеарность  может проявляться в функциональной (явной) и стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными  является линейной функциональной зависимостью. В этом случае матрица X'X особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели [6].

Однако в экономических  исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя  объясняющими переменными существует тесная корреляционная связь. Матрица X'X в этом  случае является неособенной, но её определитель очень мал [ 3].

Мультиколлинеарность в  матричном виде – это зависимость  между столбцами матрицы факторных  переменных Х:  

Если не учитывать единичный вектор, то размерность данной матрицы равна . Если ранг матрицы Х меньше n, то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Конкретных методов обнаружения  мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов:

  1. Анализ матрицы коэффициентов парной корреляции.
  2. Исследование матрицы Х'Х . Если определитель матрицы близок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Корреляционная  матрица факторных переменных – это симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных: , где rij – линейный коэффициент парной корреляции между i-м и j-ым факторными переменными, .

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной  переменной с самой собой равен  единице.

При рассмотрении данной матрицы с целью выявления  мультиколлинеарных факторов руководствуются  следующими правилами:

1) если в корреляционной  матрице факторных переменных  присутствуют коэффициенты парной  корреляции по абсолютной величине  большие 0,8, то делают вывод,  что в данной модели множественной  регрессии существует мультиколлинеарность;

2) вычисляют  собственные числа корреляционной матрицы факторных переменных λmin и λmax. Если λmin<10-5, то в модели регрессии присутствует мультиколлинеарность. Если отношение , то также делают вывод о наличии мультиколлинеарных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность [7].

Дополнительные  признаки обнаружения мультиколлинеарности:

  1. Высокие R2 и F-статистика, но некоторые (или даже все) коэффициенты незначимы, т.е. имеют низкие t-статистики.
  2. Высокие парные коэффициенты корреляции.
  3. Высокие частные коэффициенты корреляции.
  4. Высокие значения коэффициента VIF («фактор инфляции вариации»).
  5. Знаки коэффициентов регрессии противоположны ожидаемым.
  6. Добавление или удаление наблюдений из выборки сильно изменяют значения оценок.
    1. Причины возникновения мультиколлинеарности и её последствия

Причинами возникновения  мультиколлинеарности можно считать  следующие:

  1. Изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса. Например, показатели объема произведенной продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как оба характеризуют размер предприятия.
  2. Использование в качестве факторных признаков тех, суммарное значение которых представляет собой постоянную величину. Например, коэффициент годности и коэффициент износа основных фондов.
  3. Факторные признаки, являющиеся элементами друг друга. Например, затраты на производство продукции и себестоимость единицы продукции.
  4. Факторные признаки, по экономическому смыслу дублирующие друг друга. Например, прибыль и рентабельность продукции [2].

Под воздействием мультиколлинеарности в модели могут  возникнуть следующие изменения:

  1. Искажаются величины параметров модели, которые имеют тенденцию к завышению.
  2. Изменяется смысл экономической интерпретации коэффициентов регрессии.
  3. Появляется слабая обусловленность системы нормальных уравнений.
  4. Осложняется процесс определения наиболее существенных факторных признаков.

Включение в  модель мультиколлинеарных факторов нежелательно по нескольким причинам:

1) основная гипотеза  о незначимости коэффициентов  множественной регрессии может  подтвердиться, но сама модель  регрессии при проверке с помощью  F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные  оценки коэффициентов модели  множественной регрессии могут  быть неоправданно завышены или  иметь неправильные знаки;

3) добавление  или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мультиколлинеарные  факторы, включённые в модель  множественной регрессии, способны  сделать её непригодной для  дальнейшего применения.

    1. Методы устранения мультиколлинеарности

Если оцененную  модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что  их наличие в модели может привести к неправильным знакам коэффициентов регрессии.

При построении прогноза на основе модели регрессии с мультиколлинеарными  факторами необходимо оценивать  ситуацию по величине ошибки прогноза. Если её величина является удовлетворительной, то модель можно использовать, несмотря на мультиколлинеарность. Если же величина ошибки прогноза большая, то устранение мультиколлинеарных факторов из модели регрессии является одним из методов повышения точности прогноза.

Для устранения или уменьшения мультиколлинеарности используется ряд  методов.

1) Один из наиболее простых методов устранения мультиколлинеарности состоит в получении дополнительных данных. Однако на практике в некоторых случаях его реализация может быть весьма затруднительна [7].

2) Метод преобразования  переменных, заключается в том,  что вместо значений всех переменных, участвующих в модели (и результативной в том числе) можно взять их логарифмы: ln y = a+b1·ln x1+ b2·ln x2+ε. Однако данный способ также не способен гарантировать полного устранения мультиколлинеарности факторов [4,7].

3) Метод сравнения значений линейных коэффициентов корреляции, состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной  [ 3].

4)  Метод включения  факторов заключается в том,  что в модель включаются факторы  по одному в определенной последовательности. Из всего возможного набора факторных переменных включаются именно те, которые оказывают существенное влияние на результативную переменную.

На первом шаге в модель вводится тот фактор, который имеет  больший коэффициент корреляции с зависимой переменной. На втором и последующих шагах в модель включается фактор, который имеет  наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель рассчитываются её характеристики и модель проверяется на достоверность [7].

Метод пошагового включения  осуществляется по следующему алгоритму:

1. Из всех факторных  переменных в модель регрессии  включаются те переменные, которым соответствует наибольший модуль линейного коэффициента парной корреляции с результативной переменной.

2. При добавлении в  модель регрессии новых факторных  переменных проверяется их значимость  с помощью F-критерия Фишера. При  том выдвигается основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии. Обратная гипотеза состоит в утверждении о целесообразности включения факторной переменной xk в модель множественной регрессии. Критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=l и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров. Наблюдаемое значение F-критерия рассчитывается по формуле: ,где q – число уже включённых в модель регрессии факторных переменных [6].

Информация о работе Отбор факторов в модель множественной регрессии