Построение и исследование регрессионных моделей

Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 17:53, курсовая работа

Описание работы

Построение и исследование регрессионных моделей на примере автомобилей ведущих зарубежных фирм в среде маткад.Цель курсовой работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Данная курсовая работа предлагает исследовать автомобиль какой-либо зарубежной фирмы (в нашем случае Volkswagen), в качестве исходных данных представлены следующие характеристики: расход горючего, мощность двигателя и масса автомобиля. При исследовании используются основные методы корреляционного и регрессионного анализа.

Содержание работы

Введение………………………………………………………………………….3
Исходные данные………………………………………………………………..3
Задание 1…………………………………………………………………………4
Задание 2…………………………………………………………………………5
Задание 3…………………………………………………………………………5
Задание 4…………………………………………………………………………8
Задание 5…………………………………………………………………………9
Задание 6………………………………………………………………………....12
Задание 7…………………………………………………………………………13
Задание 8…………………………………………………………………………14
Задание 9…………………………………………………………………………15
Задание 10………………………………………………………………………..15
Задание 11………………………………………………………………………..16
Задание 12………………………………………………………………………..17
Задание 13………………………………………………………………………..19
Задание 14………………………………………………………………………..29
Задание 15………………………………………………………………………..39
Задание 16………………………………………………………………………..39
Задание 17………………………………………………………………………..40
Заключение………………………………………………………………………42
Список литературы……………………………………………………………...43

Файлы: 1 файл

Kursovaya нем.doc

— 867.00 Кб (Скачать файл)

























 

 

 

 

 

 

 

 

 

 

В итоге получаем доверительный интервал для истинного коэффициента корреляции r1: -0.911<r1<-0.05, и для r2: -0.1<r2<0.881 .

Задание 5

Пункты 3,4 задания выполните при учете совместного влияния на эндогенную переменную y обеих экзогенных переменных x1 и x2. С этой целью по подобной (1) формуле следует рассчитать эмпирический коэффициент корреляции между экзогенными переменными x1 и x2. Далее с использованием выражений

      ,                                            (5)

находятся частные эмпирические коэффициенты корреляции и эндогенной и экзогенных переменных,  учитывающие совместное воздействие экзогенных переменных на эндогенную переменную. Проверку гипотезы   H0 о некоррелированности эндогенной и экзогенных переменных выполните с использованием статистики (2). Доверительные интервалы для истинных коэффициентов корреляции ry1 и ry2 находятся подобным (3), (4) образом, но в выражении (4) объем n выборки следует заменить на n-1. Сопоставьте результаты выполнения этого пункта с предыдущими результатами и дайте объяснение возникающим различиям в случае обнаружения таковых.

Выборочный коэффициент корреляции лишь приближенно определяет влияние  экзогенной переменной хi на эндогенную у. Этот коэффициент нужно очистить от влияния других экзогенных переменных: х1, х2..xi-1. xi+1..хn. В таком случае эти экзогенные переменные принято считать мешающими, а очищенный от влияния мешающих параметров выборочный коэффициент rxy принято называть частным коэффициентом корреляции.

Сначала рассчитаем эмпирический коэффициент корреляции между экзогенными переменными:







 

 

 

Затем определим частные  коэффициенты корреляции по формуле (5):





 

 

 

 

 

 

Далее по аналогии проверяем выполнимость гипотезы Н0, для чего проводим соответствующие вычисления:





 

 

 

Где gρk – соответствующие значения случайной величины, найденные с помощью частных коэффициентов корреляции. Их требуется сравнить с 100a/2-процентной точкой w100a/2 распределения Стьюдента с n-2 степенями свободы, её значение было найдено раннее.



 





 

Таким образом, получаем, что:

  1. С вероятностью a ошибиться, мы отвергаем гипотезу об отсутствии корреляционной связи между величинами у и х1. В этом случае частный коэффициент корреляции ρ1 считается значимым.
  2. С вероятность 1-a правильности решения, принимаем гипотезу об отсутствии корреляционной связи между величинами у и х2. Частный коэффициент корреляции ρ2 считается незначимым.

И, наконец, найдем доверительные интервалы для истинных коэффициентов корреляции ρ1 и ρ2:





 

 

 

 

 





 

 

 

 

 

 









 

 

Для истинного частного коэффициента корреляции ρ1 получаем доверительный интервал вида: -0.92< ρ1<0.012, и для ρ2: -0.16< ρ2<0.894.

Сопоставляя результаты выполнения пункта 5 пунктов 3,4 можно выделить следующие моменты:

  • Частные эмпирические коэффициенты корреляции и эмпирический коэффициент корреляции практически не отличаются:









  

 

Это можно объяснить слабой факторной связью (r12=-0,249)

  • Гипотеза H0 о том, что величины хk и у некоррелированы, принимается идентично как для частных эмпирических коэффициентов корреляции ρ1 и ρ2, так и для эмпирических коэффициентов корреляции r1 и r2.

Задание 6

Используя метод наименьших квадратов, найдите МНК–оценки  вектора регрессионных параметров в соответствии с Вашим вариантом задания. В матрично-векторных обозначениях решение определяется соотношениями  

 

=(XTX)-1XTy,

                                                           

= , = , = .                          (6)

 

Функция  j(x1,x2) в составе матрицы определяется последним слагаемым в выражении регрессионной модели, соответствующей вашему варианту задания.

Реализуем приведенный  выше алгоритм:











 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Задание 7

Используя выражение

= ,                                      (7)

где - i-я строка матрицы , m+1 – размерность вектора , определите величину , являющуюся мерой разброса экспериментальных данных yi относительно значений, “предсказанных” регрессионной моделью (оценка дисперсии экспериментальных данных).

Результаты выполнения этого пункта таковы:











 

 

 

 

 

Задание 8

Вычислите коэффициент  детерминации Kd2, соответствующий вашим экспериментальным данным, воспользовавшись определением

Kd2= ,                                                                                                                (8)

где использованы обозначения

yi,     = [1  1  ...  1]TÎRn.

Прокомментируйте содержательный смысл этого коэффициента.

Коэффициент детерминации показывает, какая часть разброса эндогенной переменной относительно среднего значения определяется регрессионной составляющей, относительно того же среднего значения.

Если Kd2 =0, то это означает, что экзогенные переменные меняются, а эндогенная переменная остается постоянной (т.е. эндогенная переменная вообще не зависит от экзогенной). Такая регрессионная модель считается составленной неверно, и её необходимо заблокировать. 

Если Kd2 =1, то это означает, что регрессионная модель составлена так, что все модельные значения проходят точно через наблюдения. Такая модель оказывается плохой, в том смысле, что отслеживаются все случайные изменения вектора у и модель является неоправданно сложной.

Найдем этот коэффициент:







 

 

 

 

Мы получаем, что вариация экспериментальных данных на 80,6% объясняется разбросом регрессионной составляющей. А это говорит том, что расход горючего находится в достаточно тесной связи с экзогенными переменными с мощностью двигателя и массой автомобиля. На долю прочих факторов, не учтенных в нашей модели, приходится 19,4%. Данные результаты говорят о том, что регрессионная модель достаточно хорошо описывает исходные данные.

Задание 9

Подтвердите более тщательным образом наличие зависимости  рас-

хода топлива от мощности двигателя  и массы автомобиля. Для этого  следует найти величину

z = ~ F(m, n-m-1).                                                       (9)

Пусть w100a – 100a% -я точка F-распределения с числом степеней свободы числителя m и знаменателя n-m-1. Тогда если окажется z< w100a, то с вероятностью 1-a принимается гипотеза об отсутствии  связи между y и x1, x2. При противоположном неравенстве с вероятностью a ошибиться эта гипотеза отвергается. В пояснительной записке дайте подробную аргументацию этого решения.











т. о. с вероятностью α ошибиться принимается гипотеза о налмчии связи между переменными у и х1, х2



 

 

 

 

Задание 10

Воспользовавшись выражением

K = ,                                                                                      (10)

найдите ковариационную матрицу K ошибок оценок . Объясните смысл этой матрицы.

Ковариационная матрица  равна:





 

 

 

 

 

 

 

Элементы, стоящие на главной диагонали этой матрицы, представляют собой дисперсии ошибок оценивания, а остальные элементы – ковариации между этими ошибками. С помощью элементов ковариационной матрицы подсчитываются основные показатели случайного разброса оценок около соответствующих истинных значений анализируемых параметров и одновременно характеристики взаимозависимости полученных оценок.

Задание 11

Проверьте справедливость гипотезы a4=0 против альтернативы a4 0. Эту гипотезу с доверительной вероятностью 1-a следует признать, если



 

                                                                                 (11)

где w100a/2 100a/2-процентная точка распределения Стьюдента с n-m-1 степенями свободы, K4,4 – соответствующий элемент матрицы K. При противоположном неравенстве эта гипотеза отвергается с вероятностью a ошибиться.

Выполним необходимые  расчеты:











 

 

Условие выполняется, а это значит, что гипотеза a4=0 признается с доверительной вероятностью 1-a. Также можно утверждать, что переменная х2 (масса автомобиля) оказывает незначительное влияние на переменную у (расход топлива).

Задание 12

Если принята гипотеза a4=0, следует надлежащим образом откорректировать регрессионную модель и заново провести расчеты в соответствии с пп. 6 – 10.

Гипотеза a4=0 была нами принята, следовательно, теперь нам необходимо откорректировать модель. С этой целью отбросим последнее слагаемое в модели.

Задание 12.6. Найдем МНК-оценки вектора регрессионных параметров.







 

 

 

 

 

 

 

 

 

 

Задание 12.7. Для новой модели и соответствующих ей характеристик определим величину σ2, которая является мерой разброса экспериментальных данных  у относительно значений, "предсказанных" регрессионной моделью:







 

 

 

 

Следует отметить, что  σ1<σ2, а это значит, что качество откорректированной регрессионной модели уменьшилось.

Задание 12.8. Вычислим коэффициент детерминации:



 

 

Коэффициент детерминации используется для оценки качества регрессионной модели, чем ближе коэффициент детерминации к 1,тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии (т.е. тем точнее наша регрессионная модель).



- предыдущее значение.

Коэффициент детерминации уменьшился, а значит, и уменьшилась точность новой регрессионной модели.

Задание 12.9. Подтвердим более тщательным образом наличие зависимости расхода топлива от мощности двигателя и массы автомобиля.







 

 

Т. о. с вероятностью α ошибиться принимается гипотеза о наличии связи между переменными у и х1, х2

Задание 12.10. Найдем ковариационную матрицу K2 ошибок оценок а2k:







 

 

 

Сравнивая корреляционные матрицы ошибок K  и K2, видим, что что для всех МНК-оценок точность улучшилась.

Задание 13

Постройте (1-a)-доверительные интервалы для параметров 2 и 3 в уравнении регрессии. Соответствующие интервалы описываются выражением

i + ua/2 < i £ i - ua/2 ,     i=1, 2.                                           (12)

где ua/2     a/2-квантиль распределения Стьюдента с n-m-1 степенями свободы, величина находится по матрице K. Объясните смысл этого интервала.

Информация о работе Построение и исследование регрессионных моделей