Модель линейной регрессии

Автор работы: Пользователь скрыл имя, 06 Февраля 2014 в 12:51, контрольная работа

Описание работы

1 этап: Оценка взаимосвязей. Строим матрицу парных коэффициентов корреляции: ...
Вывод: из матрицы видно, что с зависимой переменной (y) тесно связаны переменные: год выпуска автомобиля, объём багажника, тип кузова, КПП, объём двигателя, комплектация а/м, тип привода, техническое состояние а/м и максимальный расход топлива на 100км; такая переменная, как пробег автомобиля по России слабо связана с ценой автомобиля бизнес-класса.

Файлы: 1 файл

RGR__5.docx

— 123.32 Кб (Скачать файл)

Переменные:

Зависимая: у – цена автомобилей бизнес-класса, тыс. руб.

Независимые:

Х1 – год выпуска автомобиля

Х2 – объём багажника, л


Х3 – тип кузова автомобиля       1, универсал

                                                            0, седан  


Х4 – коробка переключения передач       1, МКПП

                                                                             0, АКПП

Х5 – объём двигателя, см3


Х6 – комплектация автомобиля      1, максимальная комплектация

                                                                  0, не максимальная комплектация


Х7 – тип привода     1, 4WD

                                     0, задний привод


Х8 – пробег по России   1, есть пробег

                                              0, нет пробега


Х9 – техническое состояние автомобиля    1, отличное

                                                                                0, удовлетворительное

Х10 – максимальный расход топлива на 100 км, л

 

 

 

 

1 этап: Оценка взаимосвязей.

Строим матрицу парных коэффициентов корреляции:

     

1

2

3

4

5

6

7

8

9

10

11

Y

1

Цена

1,00

                   

х1

2

год выпуска

0,96

1,00

                 

х2

3

объём багажника, л

0,80

0,78

1,00

               

х3

4

тип кузова а/м

0,81

0,75

0,65

1,00

             

х4

5

КПП

0,85

0,77

0,63

0,92

1,00

           

х5

6

объём двигателя,см3

0,93

0,88

0,73

0,73

0,77

1,00

         

х6

7

комплектация а/м

0,83

0,75

0,66

0,88

0,88

0,70

1,00

       

х7

8

тип привода

0,83

0,75

0,66

0,88

0,88

0,70

1,00

1,00

     

х8

9

пробег по России

-0,09

-0,14

-0,21

-0,10

-0,10

0,00

0,03

0,03

1,00

   

х9

10

техническое состояние а/м

0,85

0,76

0,67

0,92

0,92

0,73

0,96

0,96

0,00

1,00

 

х10

11

мах расход топлива на 100 км,  л

0,90

0,85

0,74

0,74

0,74

0,85

0,78

0,78

-0,06

0,78

1


 

Цена y (зависимая переменная):

  1. Х1 (ryх1=0,96) => ryх1>0,7
  2. Х2 (ryx2 = 0,80) => ryx2 >0,7
  3. Х3 (ryx3 = 0,81) => ryx3>0,7
  4. X4 (ryx4 = 0,85) => ryx4>0,7               - тесная связь
  5. X5 (ryx5 = 0,93) => ryx5>0,7
  6. X6 (ryx6 = 0,83) => ryx6>0,7
  7. X7 (ryx7 = 0,83)=> ryx7> 0,7
  8. X8 (ryx8 = -0,09)=> ryx8 <0,5 – слабая связь

 

Вывод: из матрицы видно, что с зависимой переменной (y) тесно связаны переменные: год выпуска автомобиля, объём багажника, тип кузова, КПП, объём двигателя, комплектация а/м, тип привода, техническое состояние а/м и максимальный расход топлива на 100км; такая переменная, как пробег автомобиля по России слабо связана с ценой автомобиля бизнес-класса.

 

 

 

 

 

 

 

 

2) Строим первую модель, используя все независимые переменные:

Результаты расчётов:

1-я модель (по всем переменным): F = 169,96, R2=0,98

 

Регрессионная статистика

Множественный R

0,99

R-квадрат

0,98

Нормированный R-квадрат

0,97

Стандартная ошибка

33,68

Наблюдения

50

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

10

1927891,31

192789,13

169,96

0,00

Остаток

38

43104,32

1134,32

   

Итого

48

1970995,63

     
 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-36918,85

6593,57

-5,60

0,00

-50266,84

-23570,87

х1

18,58

3,30

5,63

0,00

11,89

25,26

х2

0,02

0,06

0,35

0,73

-0,11

0,15

х3

-22,12

27,65

-0,80

0,43

-78,10

33,86

х4

-55,41

24,09

-2,30

0,03

-104,18

-6,64

х5

0,05

0,01

6,92

0,00

0,04

0,07

х6

8,82

28,54

0,31

0,76

-48,95

66,59

х7

17,44

28,35

0,62

0,54

-39,95

74,83

х8

-17,48

11,06

-1,58

0,12

-39,87

4,91

х9

137,18

40,97

3,35

0,00

54,23

220,13

х10

6,06

6,40

0,95

0,35

-6,88

19,01





Полученная на первой итерации модель имеет вид:

 y  = -36918,85 + 18,58x1 + 0,02x2 + (-22,12х3) + (-55,41х4) + 0,05х5 + 8,82х6 +17,44х7 + (-17,48х8) + 137,18х9

                (t = -5,60)       (t=5,63)      (t=0,35)          (t= - 0,80)          (t = -2,30)       (t = 6,92)     (t = 0,31)     (t = 0,62)        (t = -1,58)          (t=3,35)

  + 6,06х10

     (t = 0,95)

 

 

  • Найдём критическую точку  tкр. = t (α, n-k) , где уровень значимости α= 1-0,95=0,05, которая зависит от числа степеней свободы, равного (n-k) = 50-11 = 39, где n=50 – число наблюдений, k= 10+1=11 – число оцененных параметров модели (10 независимых переменных (Хi) и 1 зависимая переменная (у)).

 

 

                                                      tкр = 2,02

 

 

 

 

 

Оценка значимости коэффициентов  регрессии:

Коэффициент

t-статистика

Сравнение с tкр. = 2,02

Гипотеза Hо: bi= 0

Доверительный интервал

0 принадлежит или нет ДИ

Вывод о значимости

-36918,85

-5,60

>

нет

(-50266,84; -23570,87)

нет

значим

18,58

5,63

>

нет

(11,89; 25,26)

нет

значим

0,02

0,35

<

да

(-0,11; 0,15)

да

не значим

-22,12

- 0,80

<

да

(-78,10; 33,86)

да

не значим

-55,41

-2,30

>

нет

(-104,18; -6,64)

нет

значим

0,05

6,92

>

нет

(0,04; 0,07)

нет

значим

8,82

0,31

<

да

(-48,95; 66,59)

да

не значим

17,44

0,62

<

да

(-39,95; 74,83)

да

не значим

-17,48

-1,58

<

да

(-39,87; 4,91)

да

не значим

137,18

3,35

>

нет

(54,23; 220,13)

нет

значим

6,06

0,95

<

да

(-6,88; 19,01)

да

не значим


           

Вывод: по результатам расчётов мы видим, что всего 5 коэффициентов (4 независимых и 1 зависимый-свободный коэффициент) из 11 считаются статистически значимыми с вероятностью 95%, а остальные 6 являются статистически не значимыми.

 

 

 

Верификация модели:

а) Однофакторный дисперсионный  анализ:

С помощью Критерия Фишера проверим гипотезу: Но: b1=b2=….=b10=0 (гипотеза об отсутствии линейной функциональной связи).

  • Найдём критическое значение критерия:

Fкр. = F (α; k-1; n-k) = F (0,05; 11-1; 50-11) = F (0,05;10;39) = 2,084

 

 

 

 

Вывод: из полученных расчётов наблюдаемое значение Fо = 169 € d1, следовательно, гипотеза Но отклоняется, принимается гипотеза Н1,т.е. линейная функциональная связь между ценой автомобиля бизнес-класса и десятью независимыми переменными существует.

 

  • Коэффициент детерминации R2 = 0,98*100% = 98%,это значит, что общая вариация (изменчивость) цены на автомобиль бизнес-класса на 98% объясняется изменчивостью десятью независимых переменных (хi). Значение коэффициента детерминации очень высокое, что свидетельствует о хорошем качестве подгонки.

 

 

 

 

 

 

 

 

 

 

Вывод по модели:

  • Оценивания полученную модель по всем критериям, можно сказать, что её использование для построения прогноза непригодно, т.к. из 11 коэффициентов регрессии 6 являются статистические не значимыми, несмотря на хорошие результаты по F-статистике.
  • По данной модели можно сделать вывод, что здесь присутствует эффект мультиколлинеарности факторов: большинство t-статистик по абсолютной величине меньше критического значения при высоком значении F-статистики.
  • Также, если изучить значения парных коэффициентов корреляции между независимыми переменными, то мы видим, что тесная связь наблюдается между: годом выпуска автомобиля и объёмом двигателя (rx1x5 = 0,88) , годом выпуска и максимальной комплектацией автомобиля (rx1x6 = 0,75), годом выпуска и техническим состоянием автомобиля (rx1x9 = 0,76); объёмом багажника и типом кузова (rx2x3 = 0,65), КПП и типом привода(rx4x7=0,88),КПП и максимальным расходом топлива на 100 км (rx4x10 = 0,74).

 

 

    1. х1: х5 (rx1x5 = 0,88)

ryx1 = 0,96                         0,96>0,93 => x5(искл.)               

ryx5 = 0,93

    1. Х16 (rx1x6 = 0,75)

                 ryx1 = 0,96                       0,96>0,83 =>   х6(искл.) 

                  ryx6 = 0,83  

    1. Х1:X9 (rx1x9 = 0,76)

ryx1 = 0,96                           0,96>0,85 =>  x9(искл.) 

ryx9= 0,85     

    1. Х23 (rx2x3 = 0,65)

ryx2= 0,80                      0,80<0,81=> X2(искл.)

ryx3=0,81

    1. Х4:Х7 (rx4x7=0,88)

ryx4=0,85                        0,85>0,83 => x7(искл.)         

ryx7=0,83

    1. Х410 (rx4x10 = 0,74)

ryx4=0,85                      0,85<0,90=> Х4(искл.)    

                 ryx10 = 0,90

3) Перейдём к построению второй модели:

Исключим из первой модели следующие переменные: х245679 (для устранения эффекта мультиколлинеарности факторов).

2-я модель (исключаем х245679): F=175,19 ,R2=0,94

Регрессионная статистика

       

Множественный R

0,97

       

R-квадрат

0,94

       

Нормированный R-квадрат

0,94

       

Стандартная ошибка

51,44

       

Наблюдения

50

       
           

Дисперсионный анализ

     
 

df

SS

MS

F

Значимость F

Регрессия

4,00

1854552,59

463638,15

175,19

0,00

Остаток

44,00

116443,04

2646,43

   

Итого

48,00

1970995,63

     
 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-60496,71

7747,69

-7,81

0,00

-76111,15

-44882,28

х1

30,33

3,88

7,82

0,00

22,52

38,15

х3

64,84

24,54

2,64

0,01

15,38

114,29

х8

10,07

15,33

0,66

0,51

-20,83

40,96

х10

34,22

7,90

4,33

0,00

18,30

50,13

Информация о работе Модель линейной регрессии