Построение моделей множественной регрессии

Автор работы: Пользователь скрыл имя, 17 Мая 2013 в 13:15, курсовая работа

Описание работы

Ситуация: «Огород Робинзона». Робинзон Крузо решил провести подготовку нового участка земли под огород. В ходе этой работы ему необходимо было очистить землю от камней. Для анализа производительности своего труда Робинзон разбил весь участок на секторы. Убирая камни с каждого сектора, он фиксировал потраченное время Y(в часах) и общий вес корзин с камнями X (в кг), которые ему пришлось убрать. Необходимо построить модель зависимости времени уборки от общего веса корзин.

Файлы: 1 файл

Ministerstvo_obrazovania_i_nauki_Rossyskoy_Fed (1).doc

— 643.00 Кб (Скачать файл)

Министерство образования и  науки Российской Федерации

 

Федеральное агентство  по образованию

 

Государственное образовательное  учреждение высшего

профессионального образования

 

«НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ  ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

 

 

 

 

 

 

 

 

Курсовая  работа по предмету

Эконометрика

На тему: «Построение  моделей множественной регрессии»

Вариант № 1

 

 

 

 

 

 

 

 

Факультет: ФБ

Специальность: 080100

Группа: ВЗ 901

Выполнила: Аникина Н.В.

 

 

Проверил: Щеколдин В.Ю.

Дата сдачи:

Дата защиты:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Новосибирск 2012

Ситуация: «Огород Робинзона». Робинзон Крузо решил провести подготовку нового участка земли под огород. В ходе этой работы ему необходимо было очистить землю от камней. Для анализа производительности своего труда Робинзон разбил весь участок на секторы. Убирая камни с каждого сектора, он фиксировал потраченное время Y(в часах) и общий вес корзин с камнями X (в кг), которые ему пришлось убрать. Необходимо построить модель зависимости времени уборки от общего веса корзин.

 

  1. Исходные данные нанести на координатную плоскость и сделать предварительные выводы о наличии (отсутствии) связи между факторами Xи Y.

 

Исходные данные

 

Вариант 01

X

Y

62

2,69

59

1,6

64

2,69

65

3,21

69

3,16

41

1,23

65

2,69

63

3,33

53

2,06

59

2,18

47

1,19

40

1,06

55

1,83

66

3,36

68

3,62

53

1,27

43

1,63

49

1,18

40

0,77

49

1,37

58

2,84

54

1,87

49

0,97

50

1,87

42

1,02




 

Предварительные выводы о наличии связи между факторами х (вес корзин, кг) и у(потраченное время на уборку сектора, часы): связь положительная(прямая) и линейная, т.е. чем выше значение х, тем выше значение у.

1)между факторами X и Y есть зависимость, так как

форма поля графика  вытянутая

2)С увеличением Х (общего веса) увеличивается Y(потраченное время) в среднем, значит, связь положительная

3)связь не линейная, так как направление относительно среднего разное 
  
2. Рассчитать парный коэффициент корреляции и проверить его на значимость. Сделать выводы о тесноте связи между факторами Xи Y.

 

Парный коэффициент  корреляции рассчитывается по формуле 

Или как взяли мы функцию  коррел(массив1,массив 2),массив 1 –это исходные х, массив2-исходные у

 rxy= 0,903874

величина парного к.к. больше 0, значит зависимость положительная, величина к.к. показывает тесноту линейной связи между факторам х и у, поскольку значение полученного к.к. очень близко к 1, значит можно предполагать, что зависимость между х и у тесная.

 

Проверка значимости полученного  к.к., с помощью критерия Стьюдента: t-статистика Стьюдента рассчитывается по формуле ,

tрасч= 10,13284

Смотрим значение tкр по таблице распределения Стьюдента, критические значения α=0,05, степень свободы N-2, tкр= 2,068658

Cогласно критерию Стьюдента, если , значит зависимость между х и у является сильной.

 

3. Построить регрессионную модель

, где  = и =x √x

Регрессионная модель выглядит так:

 

Y= θ0+ θ 1x2+ θ2x√x+ε, где x2=x1, x√x=x2

Считаем значения x1и x2

 

 

(XT X)-1   =

               x1= x2

x2=1/(x√x)

3844

488,1885

3481

453,1876

4096

512

4225

524,0468

4761

573,157

1681

262,5281

4225

524,0468

3969

500,047

2809

385,8458

3481

453,1876

2209

322,2158

1600

252,9822

3025

407,8909

4356

536,1865

4624

560,7424

2809

385,8458

1849

281,9699

2401

343

1600

252,9822

2401

343

3364

441,7148

2916

396,8173

2401

343

2500

353,5534

1764

272,1911




 

 

   

 28,34915

0,0291647

 

 

 

-0,28865

0,029165

0,000031

-0,0003

-0,28865

-0,000303

0,002983


 

4.С помощью метода наименьших квадратов найти оценки неизвестных параметров для каждого уравнения регрессии. Проинтерпретировать результаты.


Вектор неизвестных  параметров θ=            объединяет в себе все искомые  параметры и находится по формуле:

тХ)-1ХтY, где Х и Y – матрицы, содержащие в себе переменные х и у, причем в матрице Х первый столбец – единицы, второй -xi1, а третий - xi2.

После подсчетов имеем  следующие оценки неизвестных параметров:

θ 0

2,240741

θ 1

0,003597

θ 2

-0,02754


 

Интерпретация полученных значений: Величина параметра показывает среднее изменение переменной у с изменением переменной х1 на одну единицу.

Величина параметра  показывает среднее изменение переменной у с изменением переменной х2 на одну единицу.

Параметр  показывает, значение у, при х1, х2=0, в данном же случае, он не несет никакой смысловой нагрузки.

 

5.Проверить значимость параметров уравнений по критерию Стьюдента. Сформулировать выводы.

Гипотеза о значимости для всех параметров.

H0:      H0:      H0:

H1:      H1:      H1:

 

Считаем статистику Стьюдента

tрасч= , tрасч= , tрасч= , где – первый элемент вектора Ѳ, и т.д.

 – стандартная ошибка i-той оценки, считается по формуле:

 

, где  – диагональный элемент матрицы (ХтХ)-1 

,

 

Получаем:


 S = 7,10 ; S = 0,01; S =0,07

 

t0=0,315568,t1=0,486303, t2= -0,37808

Сравниваем по модулю с tкр= 2,068658, t0 , t1, t2

| t0|<tкр, H0:не отвергается,

 

t0=0,315568< tкр= 2,068658-параметр не значимый

| t1|<tкр, H1:не отвергается,

 

t1=0,486303< tкр= 2,068658-параметр не значимый

 

| t2|<tкр, H2:не отвергается,

 

t2=-0,37808< tкр= 2,068658-параметр не значимый

 

 

 

 

6.С помощью коэффициентов эластичности провести сравнение регрессоров и по степени влияния на отклик.

 

Средний коэффициент  эластичности показывает изменение переменной у, которой соответствует изменение х на 1% и считается по формуле:

 

   

 

Получаем:

x1cp

3055,64

x2cp

406,8131

ycp

2,0276




 

Эу/х1=5,420461622

Эу/х2=-5,52558146


Вывод: При изменении  х1 на 1%,  изменение у равняется 5,420461622, а при изменении х2 на 1%, изменение у равняется -5,52558146, следовательно, переменная х1 влияет на отклик сильнее, чем х2

если x1 увеличится на 1 % от среднего то у увеличится на 5,4 % от среднего

если x1 увеличится на 30 ед от среднего то у увеличится на 0,1 от среднего

если x2 увеличится на 1% от среднего то у уменьшится на 5,5 % от среднего

если x1 увеличится на 4 ед от среднего то у уменьшится на 0,1 от среднего


 

 

 

 

7.Вычислить коэффициент детерминации, проверить регрессионное уравнение на значимость по критерию Фишера. Проанализировать его на предмет наличия мультиколлинеарности. Сделать выводы.

 

TSS=ESS+RSS

 

 

Где

TSS

18,832056

ESS

2,812342

RSS

16,01971


 

 

                                                                                                                                                                              

18,832056= 2,812342+ 16,01971  RSS ESS,значит уравнение довольно точное R2 = = 0,850662, коэффициент детерминации показывает долю объясненной дисперсии в общей дисперсионно зависимой переменной(т.е. у), значение к.д. близко к 1, значит линия регрессии достаточно точно описывает данные, примерно 87% наших измерение описывает данные.

Проверка значимости модели.

Выдвигается гипотеза вида: 

H0:      - т.е. уравнение не значимо

H1:

 

Для проверки H0 используется статистика Фишера:

F =

F=131,013045

 

Fкр (α, m, N-m-1) смотрим по таблице распределения фишера.

Fкр=4,27934426

 

F Fкр,  значит гипотеза H0 отвергается, и уравнение можно считать значимым.

 

Проверка на наличие  мультиколлинеарности производится с  помощью Критерия Бартлета.

Нужно посчитать матрицу  межфакторных корреляций R.

 


  


R =                                                  R =

 

 

H0:|R|=1-нет мультиколлинеарности:

H0:|R|≠1-есть мультиколлинеарности:

 

 

 

= 0,99933611, отсюда получаем, что матрица R выглядит следующим образом


 

R =                       и   определитель матрицы |R|= 0,00132734

 

 

 

 

 

Гипотеза на наличие/отсутствие мультиколлинеарности:

 

H0:

H1:

 

Считаем статистику Бартлета: В = - ( N – 1 – 1/6(2m+5))ln|R|

B=112,61782

 

Из таблицы значений χ2находим χ2 (ά, )

χ2кр= 7,81472776

 

 

B>χ2крзначит гипотеза отвергается и мультиколлинеарность есть.

 

Вывод: Наблюдается проблема связанная с зависимостью признаков  х, рекомендуется избавиться от мультиколлинеарности, так как ее наличие не позволяет использовать метод наименьших квадратов для вычисления оценок, результаты некорректны.

 

 

 

8.Изобразить в одной системе координат исходные данные, линию регрессии, 95% доверительный интервал для значений отклика.

 

  1. Сделать общие выводы по результатам проделанной работы и разработать рекомендации.

Судя по графику сделаем  вывод, что в 95% интервал попадают все  значения(исходные данные и линия  регрессии),значит, модель очень хорошая ,ее можно рекомендовать для прогнозирования.

По результатам проделанной  работы можно сделать вывод, что  построенная модель множественной  регрессии достаточно точно описывает  данные, что позволяет считать  ее годной для практического использования (уравнение значимо), но наблюдается  явление мультиколлинеарности, это приводит к тому, что три параметра , и просто нельзя интерпретировать. Рекомендуется избавиться от мультиколлинеарости, для получения более точной модели.

Информация о работе Построение моделей множественной регрессии