Многомерный регрессионный анализ

Автор работы: Пользователь скрыл имя, 27 Декабря 2012 в 21:03, реферат

Описание работы

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.

Содержание работы

Вступление 2
Теоретическая часть. 3
Многомерный корреляционный анализ 3
Многошаговый регрессионный анализ. 4
Многомерный регрессионный анализ 5
Метод отсева факторов по t-критерию 9
Практическая часть. 10
Вариационные характеристики. 10
Корреляционный анализ. 14
Многомерный регрессионный анализ. 15
Многошаговый регрессионный анализ. 16
Начальный корреляционный анализ. 17
Приложение: Олимп курсовая итог. 21
Использованная литература: 30

Файлы: 1 файл

Многомерный регрессионный анализ.doc

— 414.00 Кб (Скачать файл)

         _

Аs = (у – Мо)/ σ = 0,4637,

что свидетельствует  о наличии незначительной правосторонней асимметрии (Аs>0).

Теперь рассчитаем показатель эксцесса:

ЕК = μ4/ σ4 – 3, где μ4 – центральный момент четвертого порядка.

ЕК = 0,9017, следовательно, распределение стран Африки по продолжительности жизни является островершинным (ЕК>0).

Кроме того, взглянув на нашу совокупность, можно увидеть, что  максимальная продолжительность жизни  жителей стран Африки равна уmax=64,5 лет, а минимальная у min=37 лет.

Размах данной совокупности равен уmax - у min = 27,5 лет.

 

Многошаговый регрессионный анализ.

Построим корреляционную модель из исследуемых шести переменных: y, , , , , .

Присвоим для облегчения обозначений всем переменным порядковые номера: у-1, х1-2, х2-3, x3-4,x4-5,x5-6.

 

Предварительно, с целью  анализа взаимосвязи показателей  построена таблица парных коэффициентов  корреляции R.

                 

                                    

                                            

┌─────┬───────┬───────┬───────┬───────┬───────┬───────┐

│     │   y   │   x1  │   x2  │   x3  │   x4  │   x5  │

├─────┼───────┼───────┼───────┼───────┼───────┼───────┤

│ y   │  1.00 │  0.30 │  0.53 │  0.60 │ -0.51 │  0.26 │

│ x1  │  0.30 │  1.00 │  0.27 │  0.10 │ -0.33 │  0.02 │

│ x2  │  0.53 │  0.27 │  1.00 │  0.74 │ -0.04 │  0.17 │

│ x3  │  0.60 │  0.10 │  0.74 │  1.00 │ -0.03 │  0.15 │

│ x4  │ -0.51 │ -0.33 │ -0.04 │ -0.03 │  1.00 │ -0.31 │

│ x5  │  0.26 │  0.02 │  0.17 │  0.15 │ -0.31 │  1.00 │

└─────┴───────┴───────┴───────┴───────┴───────┴───────┘

 

 

Анализ матрицы парных коэффициентов  корреляции показывает, что результативный показатель наиболее тесно связан с  показателем x3 – числом медицинских работников на 10 тысяч населения (ryx3=0.60).

Одним из основных препятствий  эффективного применения регрессионного анализа, является мультиколлинеарность (наличие сильной корреляции между  независимыми переменными, входящими  в уравнение регрессии x1,x2,x3,x4,x5). Наиболее распространенный метод выявления коллинеарности основан на анализе парных коэффициентов корреляции. Он состоит в том, что две или несколько переменных признаются коллинеарными (мультиколлинеарными), если парные коэффициенты корреляции больше определенной величины. На практике наиболее часто считают, что два аргумента коллинеарны, если парный коэффициент корреляции между ними по абсолютной величине больше 0,8.

В данном примере ни один парный коэффициент корреляции не превышает  величины 0,8, что говорит об отсутствии явления мультиколлинеарности.

 

Приступим непосредственно  к регрессионному анализу.

 

Построим регрессионную  модель по следующим факторам: х1, х2,  х3,  х4  и х5.  Для расчета параметров уравнения регрессии используем стандартную программу многошагового регрессионного анализа с последовательным отсевом факторов.

 На первом шаге  построения модели в уравнение  линейной регрессии вводятся  все указанные выше переменные. В результате получена следующая  модель:

 

ŷ= 57.700+0.000*x1+0.056*x2+0.173*x3-0.182*x4+0.007*x5.

 

Прежде чем  осуществлять проверку значимости уравнения  регрессии и коэффициентов регрессии, следует убедиться, что выполняется  необходимое для этого условие, а именно следует проверить, является ли распределение остатков (т.е. отклонений эмпирических значений зависимой переменной от расчетных) нормальным. Для проверки данного условия используем критерий согласия Пирсона , рассчитанные значения которого приведены ниже:

 

Проверка нормального  закона распределения

     критерий  хи-квадpат

     .число степеней  свободы      3

     .хи-квадpат pасчетное        1.571

     веpоятн.      хи-квадpат         заключение

     уpовень     теоpетическое        о гипотезе 

      0.900        6.226            не отвеpгается

      0.950        7.795            не отвеpгается 

      0.990       11.387            не отвеpгается 

 

 

Таким образом, можно сделать вывод, что гипотеза о нормальности распределения  остатков не отвергается с доверительной  вероятностью 0.95 ( =7.795).

Проверка значимости уравнения  регрессии показала, что оно значимо  на уровне доверительной вероятности 0,95. (см. приложение 3.1)

Уровень множественного коэффициента детерминации (0,625) свидетельствует  о том, что воздействием включенных в модель факторов обусловлено 62,5% вариации средней продолжительности жизни в странах Африки.

 Далее осуществляется проверка значимости отдельных коэффициентов регрессии на основе t-критерия Стьюдента. Для определения , используем таблицу распределения Стьюдента: =2,093 (α=0,05 и ν=n-k-1=25-5-1=19).  

 

По нижеприведенной таблице (гр.5 t-значения) статистически существенными оказались только два коэффициента регрессии при переменных и (|t|> ).

 

 

 

 

 

 

 

 

Оценки коэффициентов  линейной регрессии

 ┌───┬──────────┬───────────┬───────────────┬───────────┬────────┬─────────┐

 │ N │ Значение │ Дисперсия │       Средне- │      t -  │ Нижняя │ Верхняя │

 │   │          │           │ квадатическое │ значение  │ оценка │  оценка │

 │   │          │           │    отклонение │           │        │         │

 ├───┼──────────┼───────────┼───────────────┼───────────┼────────┼─────────┤

 │ │    57.70 │     59.12 │          7.69 │      7.50 │  44.37 │   71.03 │

 │ │     0.00 │      0.00 │          0.00 │      0.36 │  -0.00 │    0.00 │

 │ │     0.06 │      0.01 │          0.08 │      0.66 │  -0.09 │    0.20 │

 │ │     0.17 │      0.01 │          0.08 │      2.21 │   0.04 │    0.31 │

 │ │    -0.18 │      0.00 │          0.06 │     -2.96 │  -0.29 │   -0.08 │

 │ │     0.01 │      0.00 │          0.06 │      0.12 │  -0.09 │    0.11 │

 └───┴──────────┴───────────┴───────────────┴───────────┴────────┴─────────┘

 

Среди незначимых коэффициентов регрессии наименее существенно по значению t-критерия является коэффициент регрессии при переменной (среднегодовой индекс роста производства продовольствия), t=0.12. Этот фактор и подлежит исключению из модели в первую очередь.

Исключив указанный фактор, на втором шаге получаем уравнение регрессии  следующего вида:

 

ŷ= 58.478+0.000*x1+0.057*x2+0.173*x3-0.184*x4 .

 

Величина коэффициента детерминации на этом шаге не изменилась и составляет 0,625, гипотеза о значимости уравнения также не отвергается с вероятностью 0,95 (см. приложение 3.2).

Т.к. значение степеней свободы  на каждом этапе построения модели изменяется (в связи с уменьшением  числа объясняющих переменных), то также меняется. Тогда при α=0,05 и

ν=n-k-1=25-4-1=20, =2,086. Таким образом, значимыми являются коэффициенты регрессии при факторах и , а среди оставшихся незначимых наименьшее значение t-критерия, которое равно 0,35,  принадлежит коэффициенту регрессии при переменной . Поэтому фактор  (численность населения) из дальнейшего процесса исключается. 

 

 

На третьем шаге уравнение  регрессии имеет следующий вид:

 

ŷ= 59.036+0.066*x2+0.168*x3-0.191*x4 .

 

Воздействием включенных в модель переменных объясняется 62,2% вариации средней продолжительности  жизни. Проверка на значимость уравнения  регрессии показала, что оно значимо (на уровне значимости α=0,05). На этом шаге  =2,080 (α=0,05 и ν=n-k-1=25-3-1=21), таким образом, статистически существенными оказались все коэффициенты регрессии, кроме коэффициента при объясняющей переменной , который и подлежит исключению по t-критерию из уравнения регрессии (t=0,87).

 

На последнем шаге регрессионного анализа получено значимое уравнение следующего вида:

 

Y=59.951+0.215x3-0.192x4.

 

Все коэффициенты регрессии  значимы (см. приложение).

В результате моделирования  зависимости средней продолжительности жизни в странах Африки можно сделать следующие выводы.

Уровень множественного коэффициента детерминации 0,609 свидетельствует  о том, что 60,9% вариации зависимой  переменной объясняется вариацией  двух факторов:

x3 - число медицинских работников на 10 тыс. населения,

x4 - доля неграмотных.

Указанный уровень влияния  достаточно высок, поэтому можно  сделать вывод, что все факторы, оказывающие существенной влияние  на среднюю продолжительность жизни, включены в модель, поскольку уровень остаточной вариации составляет 39.1%, объясняется воздействием случайных и неучтенных в модели факторов.

В рассматриваемом уравнении  регрессии с изменением каждого  фактора на одну единицу собственного измерения (при постоянном значении остальных факторов, вошедших в модель) зависимая переменная изменяется на соответствующий коэффициент регрессии βj  отражает среднее приращение функции за счет единичного приращения j-го аргумента, независимое от изменения остальных учтенных в модели аргументов. Интерпретируемый таким образом коэффициент регрессии используется в экономико-статистическом анализе как средняя оценка эффективности влияния j-го аргумента на функцию.

Значение коэффициента регрессии  βj зависит от принятых единиц измерения величин у и хj. Если единица измерения хj велика, то увеличение х на единицу соответствует меньшее изменение среднего значения у,  то есть βj мало. Если единица измерения у велика,  то соответствующее изменение у выражается большим количеством единиц хj, следовательно, βj велико.

Анализируя полученную модель, можно сказать, что при  увеличении числа медицинских работников на 1 человека средняя продолжительность  жизни жителей стран Африки повышается в среднем на 0.215 лет; при увеличении доли неграмотных на 1%  средняя  продолжительность жизни  уменьшится на 0.192 лет (обратная зависимость).

Однако с помощью  коэффициентов регрессии нельзя сопоставить факторы по степени  их влияния на зависимую переменную из-за различия единиц измерения и  разной степени колеблемости. Поэтому  для устранения таких различий при интерпретации применяется целая система показателей: средние частные коэффициенты эластичности, бета-коэффициенты или коэффициенты регрессии в стандартизированном масштабе и дельта-коэффициенты.

 

Средний частный коэффициенты эластичности рассчитывается по формуле:

             _   _

Эj = bj*xj / y.

                                                                                                                _

В рассматриваемой модели при изменении  на 1% числа медицинских  работников на 10 тысяч населения и доли неграмотных среди жителей исследуемых стран Африки средняя продолжительность жизни изменяется следующим образом: увеличивается на 0.094% и уменьшается на 0.241% соответственно (частные коэффициенты эластичности). - см. приложение.

Однако средний частный  коэффициент эластичности не учитывает  степени колеблемости факторов, которая  может значительно различаться  у отдельных факторов. Поэтому  для устранения различий в измерении  и степени колеблемости факторов используется другой показатель - коэффициент регрессии в стандартизированном масштабе (бета-коэффициент). Он показывает,  на какую часть величины среднего квадратического отклонения изменяется среднее значение зависимой переменной с изменением соответствующей независимой переменной на одно среднее квадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных.

Бета-коэффициенты, рассчитанные для нашей модели, показывают, что  при увеличении на одно среднее квадратическое отклонение числа медработников на 10 тысяч населения и доли неграмотных, средняя продолжительность жизни в среднем увеличивается на 0.587 и уменьшается на 0.495 средних квадратических отклонений соответственно. - см. приложение.

С помощью частных  коэффициентов эластичности и с помощью бета-коэффициентов можно проранжировать факторы по степени их влияния на зависимую переменную, то есть сопоставить их между собой по величине этого влияния. Но с помощью бета-коэффициентов нельзя непосредственно оценить долю влияния каждого фактора в суммарном влиянии всех факторов. Для этой цели используются дельта-кэффициенты.

В практических задачах  при корректно проведенном анализе  величины дельта-коэффициентов положительны, то есть все коэффициенты регрессии  имеют тот же знак, что и соответствующие парные коэффициенты корреляции. В этих случаях сумма величин вкладов независимых переменных равна коэффициенту множественной детерминации.  Вместе с тем, в некоторых исследованиях отдельные коэффициенты регрессии имеют знак, противоположный знаку соответствующего коэффициента парной корреляции, вследствие чего величина дельта-коэффициента будет отрицательной. Не менее важно, что случаи с отрицательными вкладами могут иметь место только при значительной коррелированности объясняющих переменных.

Информация о работе Многомерный регрессионный анализ