Многомерный регрессионный анализ

Автор работы: Пользователь скрыл имя, 27 Декабря 2012 в 21:03, реферат

Описание работы

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.

Содержание работы

Вступление 2
Теоретическая часть. 3
Многомерный корреляционный анализ 3
Многошаговый регрессионный анализ. 4
Многомерный регрессионный анализ 5
Метод отсева факторов по t-критерию 9
Практическая часть. 10
Вариационные характеристики. 10
Корреляционный анализ. 14
Многомерный регрессионный анализ. 15
Многошаговый регрессионный анализ. 16
Начальный корреляционный анализ. 17
Приложение: Олимп курсовая итог. 21
Использованная литература: 30

Файлы: 1 файл

Многомерный регрессионный анализ.doc

— 414.00 Кб (Скачать файл)

Содержание:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вступление

 

Для достоверного отображения  объективно существующих в экономике  процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.

Частными случаями стохастической связи являются корреляционная и регрессионная связи.

Две случайные величины имеют корреляционную связь, если математическое ожидание одной из них изменяется в зависимости от изменения другой. Метод математической статистики, изучающий  корреляционные связи между явлениями, называется корреляционным анализом. Основной его задачей  является выявление связи между случайными переменными и оценка ее тесноты.

Но не все факторы, влияющие на экономические процессы, являются случайными величинами. Поэтому  при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом. Кроме того, при изучении экономических процессов необходимо не только выявить связь между переменными, но и изучить и установить ее форму, что и является основной задачей регрессионного анализа.

Поэтому, как видно  из  написанного выше, многомерный  регрессионный анализ, изучению экономических процессов с помощью которого и посвящена настоящая работа, будет гораздо подробнее и точнее при включении в него необходимых элементов корреляционного анализа.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Теоретическая часть.

Многомерный корреляционный анализ

 

В многомерной модели корреляционного анализа (с четырьмя и более переменными) вычисление частных и множественных коэффициентов  корреляции основывается  на использовании  матрицы коэффициентов парной корреляции.

Порядок частного коэффициента корреляции определяется количеством фиксируемых переменных. Выборочный частный коэффициент корреляции любого порядка можно определить по формуле

 

 

Это выражение предполагает вычисление большого числа выборочных частных коэффициентов корреляции от нулевого до (к-3)-го порядка, что является достаточно трудоемкой операцией.

Более удобным является вычисление частных коэффициентов  корреляции по следующей схеме.

На основе матрицы  выборочных коэффициентов парной корреляции

 

  (1)

 

где Q – симметричная положительно определенная матрица, имеем

 

(2)

 

  (3)

 

и так далее, где

Dij – определитель  матрицы, образованной из матрицы  (1) вычеркиванием i-ой строки и  j-го столбца для каждого определителя  соответственно.

Для проверки значимости частного коэффициента корреляции используется величина t, имеющая t-распределение Стьюдента с числом степеней свободы =n-l-2:

 

,  (4)

 

где n – число наблюдений;

l – число фиксированных переменных;

rчаст – соответствующий выборочный частный коэффициент корреляции.

С помощью таблицы  распределения Стьюдента по уровню значимости a и =n-l-2 находится tкр. При tн >tкр гипотеза Но:rчаст = 0 отвергается.

Доверительный интервал для частных коэффициентов корреляции строится при помощи z-преобразования Фишера

 

, аналогично рассмотренным ранее  случаям.

Для определения тесноты  связи между зависимой переменной и совокупностью объясняющих  переменных используется выборочный коэффициент множественной корреляции, определяемый по формуле

 

,   (5)

 

где D – определитель матрицы выборочных коэффициентов  корреляции;

Dii – алгеброическое дополнение к элементу rii.

Для проверки значимости коэффициента множественной корреляции используется величина

 

,   (6)

имеющая F-распределение  с  1=l и =n-l-2 степенями свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Многошаговый регрессионный анализ.

 

Очевидно, что простое  поверхностное  изучение данных не позволяет обнаружить, какие факторы, рассмотренные на стадии статистического анализа исходной информации, являются существенными, а какие – нет. Может случиться, что якобы отсутствующая корреляция с данным фактором обнаруживается после того, как связь с другим фактором уже исключена.

Необходимо найти оптимальный  вариант модели, отражающий основные закономерности исследуемого явления  с достаточной степенью статистической надежности.

В модель должны быть включены все факторы, которые с экономической точки зрения оказывают влияние на зависимую переменную (в нашем случае – средняя продолжительность жизни). При невыполнении этого требования модель может оказаться неадекватной вследствие недоучета существенных факторов.

С другой стороны, количество факторов, включаемых в модель, не должно быть слишком большим. Невыполнение этого требования приводит к необходимости увеличения числа наблюдений, к невозможности использования достаточно сложных зависимостей, к снижению точности оценок, к сложности интерпретации модели и к трудности ее практического использования.

 

Таким образом, возникает  задача уменьшения числа переменных, включаемых в модель, без нарушения  исходных предпосылок, т.е. задача понижения  размерности модели.

Выделяют два существенных подхода к решению проблемы сокращения количества исходных переменных:

  1. отсеивание менее существенных факторов в процессе построения регрессионной модели;
  2. замена исходного набора переменных меньшим числом эквивалентных факторов, полученных в результате преобразований исходного набора.

 

Процедура отсева несущественных факторов в процессе построения регрессионной  модели и получила название многошагового  регрессионного анализа.

Этот метод основан на вычислении нескольких промежуточных уравнений  регрессии, в результате анализа которых получают конечную модель, включающую только факторы, оказывающие статистически существенное влияние на исследуемую зависимую переменную. Различные сочетания одних и тех же факторов оказывают разное влияние на зависимую переменную. Вследствие этого появляется необходимость  выбора наилучшей модели, т.к. перебирать все возможные варианты сочетания факторов и строить множество уравнений регрессии (количество которых может быть очень велико) просто не имеет смысла.

Таким образом методы пошагового регрессионного анализа позволяют избежать столь громоздких расчетов и получить достаточно надежную и полную модель зависимости исследуемого признака от ряда объясняющих переменных.   

 

 

 

 

 

 

 

 

 

 

 

 

Как было сказано выше, основой  многошагового регрессионного анализа является построение уравнения регрессии. Рассмотрим более подробно его систему и основные понятия.

Многомерный регрессионный анализ

 

 

В общем виде многомерная  линейная регрессионная модель зависимости y от объясняющих переменных , ,…, имеет вид:

 

.

 

Для оценки неизвестных  параметров взята случайная выборка объема n из (k+1)–мерной случайной величины (y, , ,…, ).

В матричной форме  модель имеет вид:

 

,

где

  ,
,  ε=
        

- вектор-столбец фактических  значений зависимой переменной размерности n;

- матрица значений  объясняющих переменных размерности n*(k+1);

- вектор-столбец неизвестных  параметров, подлежащих оценке, размерности  (k+1);

- вектор-столбец случайных  ошибок размерности n с математическим ожиданием ME=0  и ковариационной матрицей     соответственно, при этом

  -единичная матрица размерности  (nxn).

 

 

Оценки неизвестных  параметров находятся методом наименьших квадратов, минимизируя скалярную сумму квадратов   по компонентам вектора β.

Далее подставив выражение 

    в 
,

 

получаем скалярную  сумму квадратов 

 

 

Условием обращения  полученной суммы в минимум является система нормальных уравнений:

 

,  (j=0,1,2,…,k) .

 

В результате дифференцирования  получается:

 

.

 

При замене вектора неизвестных  параметров β на оценки, полученные методом наименьших квадратов, получаем следующее выражение:

 

.

 

Далее умножив обе  части уравнения слева на матрицу  , получим

 

 

Так как  , тогда .

Полученные оценки вектора b являются не смещенными и эффективными.

Ковариационная матрица вектора  b имеет вид:

 

,  где 
- остаточная дисперсия.

 

Элементы главной диагонали  этой матрицы представляют собой  дисперсии вектора оценок b. Остальные элементы являются значениями коэффициентов ковариации:

 

,   где   
  ,
.

 

Таким образом, оценка - это линейная функция от зависимой переменной. Она имеет нормальное распределение с математическим ожиданием и дисперсией .

Несмещенная оценка остаточной дисперсии  определяется по формуле:

 

, где n – объем выборочной совокупности;

                                                               k – число объясняющих переменных.

 

Для проверки значимости уравнения  регрессии используют F-критерий дисперсионного анализа, основанного на разложении общей суммы квадратов отклонений на составляющие части:

 

, где    - сумма квадратов отклонений (от нуля),   обусловленная регрессией;

                                      - сумма квадратов отклонений                                                                                  фактических значений зависимой переменной  от расчетных , т.е. сумма квадратов отклонений относительно плоскости регрессии, обусловленное воздействием случайных и неучтенных в модели факторов.

Для проверки гипотезы используется величина  , которая имеет F-распределение Фишера-Снедекора с числом степеней свободы и   . Если , то уравнение регрессии значимо, т.е. в уравнении есть хотя бы один коэффициент регрессии, отличный от нуля.

В случае значимости уравнения регрессии  проверяется значимость отдельных  коэффициентов регрессии. Для проверки нулевой гипотезы   используется величина

 

, которая имеет F-распределение Фишера-Снедекора с числом степеней свободы       и   ; - соответствующий элемент главной диагонали ковариационной матрицы.

Коэффициент регрессии  считается значимым, если   . Для значимых коэффициентов регрессии можно построить доверительные интервалы, используя формулу

, где  находится по таблице распределения Стьюдента для уровня значимости и числа степеней свободы  .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В многошаговом регрессионном  анализе наиболее известны три подхода:

  1. Метод случайного поиска с адаптацией.  Осуществляется путем построения нескольких уравнений регрессии на основе формально разработанного принципа включения факторов и последующего выбора лучшего уравнения с точки зрения определенного критерия.
  2. Метод включения переменных, основанный на построении уравнения регрессии по одному значимому фактору и последовательном добавлении всех остальных статистически значимых переменных путем расчета частных коэффициентов корреляции и F-критерия при проверке значимости вводимого в модель фактора.
  3. Метод отсева факторов по t-критерию. Данный метод заключается в построении уравнений регрессии по максимально возможному количеству объясняющих переменных и последующем исключении статистически не существенных факторов.

Информация о работе Многомерный регрессионный анализ