Построение и исследование регрессионных моделей

Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 17:53, курсовая работа

Описание работы

Построение и исследование регрессионных моделей на примере автомобилей ведущих зарубежных фирм в среде маткад.Цель курсовой работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Данная курсовая работа предлагает исследовать автомобиль какой-либо зарубежной фирмы (в нашем случае Volkswagen), в качестве исходных данных представлены следующие характеристики: расход горючего, мощность двигателя и масса автомобиля. При исследовании используются основные методы корреляционного и регрессионного анализа.

Содержание работы

Введение………………………………………………………………………….3
Исходные данные………………………………………………………………..3
Задание 1…………………………………………………………………………4
Задание 2…………………………………………………………………………5
Задание 3…………………………………………………………………………5
Задание 4…………………………………………………………………………8
Задание 5…………………………………………………………………………9
Задание 6………………………………………………………………………....12
Задание 7…………………………………………………………………………13
Задание 8…………………………………………………………………………14
Задание 9…………………………………………………………………………15
Задание 10………………………………………………………………………..15
Задание 11………………………………………………………………………..16
Задание 12………………………………………………………………………..17
Задание 13………………………………………………………………………..19
Задание 14………………………………………………………………………..29
Задание 15………………………………………………………………………..39
Задание 16………………………………………………………………………..39
Задание 17………………………………………………………………………..40
Заключение………………………………………………………………………42
Список литературы……………………………………………………………...43

Файлы: 1 файл

Kursovaya нем.doc

— 867.00 Кб (Скачать файл)

Проверим точность модели:







 

 

 

Относительная ошибка нашей  модели 8.3%, и т.к. 8.3%<15%, то точность модели признается достаточной.

Задание 15

Проведите компонентный анализ данных, представляющих эмпирические значения экзогенных переменных из п.2 задания. Основы компонентного анализа изложены в приложении 2.

                                                                                       ПРИЛОЖЕНИЕ 2

Основы компонентного анализа

Компонентный анализ предназначен для перехода от k исходных признаков (показателей) к новой системе из k признаков, называемых главными компонентами. Главные компоненты должны быть не коррелированы между собой и упорядочены в направлении уменьшения их вкладов в общую дисперсию исходных признаков. В результате проведения компонентного анализа выявляются неявные, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин. При наличии экспериментальных значений эндогенной переменной может быть построена регрессионная модель на главных компонентах, причем возможно использование m<k главных компонентов, что способствует понижению размерности задачи. Компонентный анализ является одним из основных методов факторного анализа и основывается на следующих положениях.

Пусть некоторое экономическое  явление характеризуется k признаками X1, X2,…,Xk, т.е. вектором . Эти признаки в общем случае коррелированы, соответствующая ковариационная матрица

=M .

На ее основе можно  построить корреляционную матрицу

.

Однако обе эти матрицы  неизвестны.

Целью компонентного  анализа, как уже отмечалось, является разработка для признаков новой модели вида

=A ,                                                                                                   (П2.1)

где ÎRk – вектор новых признаков (главных компонентов) таких, что элементы вектора не коррелированы друг с другом и упорядочены в направлении уменьшения их вкладов в суммарную дисперсию исходных признаков; AÎRkxk – некоторая неизвестная матрица. В процессе проведения компонентного анализа должны быть определены матрица A и вектор , обеспечивающие достижение сформулированной цели.

Решение задачи основывается на предположении, что исходные k признаков удалось зарегистрировать на n объектах, т.е. каждый признак измерить n раз. В итоге формируется матрица X экспериментальных данных

X= ÎRkxn,

где xij – значение i-го признака на j-м объекте (при j-м измерении). Элементы этой матрицы эмпирически центрируются и нормируются. Для этого вычисляются эмпирическое среднее каждого признака, несмещенная оценка его дисперсии и среднеквадратическое отклонение, соответственно

,  i=

С использованием этих величин строится матрица

Y= .

Рассмотрим матрицу

,                                                   (П2.2)

в определении которой  использованы естественные обозначения

,

сопровождаемые при i=j очевидным следствием

Матрица , таким образом, представляет собой эмпирически найденную корреляционную матрицу исходных признаков .

Если исходить из соотношений  для экспериментальных данных, удовлетворяющих модели (П2.1), то должно выполняться

Y=AF,

где FÎRkxn – матрица возможных значений главных компонентов на n объектах. В развернутой записи

.

Справедлива интерпретация: fnj – значение n-го главного компонента на j-м объекте (j= ); ain – вес (факторная нагрузка) n-го главного компонента на i-й исходный признак (i= ).

Возвратимся к матрице (П2.2):

AFFTAT.

Потребуем, чтобы главные компоненты удовлетворяли условиям центрированности, нормировки и взаимной некоррелированности (ортогональности), что достигается при выполнении равенств

   В этом случае, что легко проверяется, FFT=E – единичная матрица, и

AAT

или 

= .

Отсюда следует

Величина gj= определяет вклад j-го главного компонента в суммарную общую дисперсию всех k исходных признаков, равную Sp k, где Sp – след матрицы, при этом сумма всех вкладов . Матрицу A будем строить таким образом, чтобы первый главный компонент вносил наибольший вклад в суммарную дисперсию, второй компонент – следующий по величине вклад и т.д.

Для поиска матрицы A поступим так. Матрица является положительно определенной (точнее, неотрицательно определенной). Тогда существует ортогональная матрица U, диагонализирующая матрицу , т.е. удовлетворяющая условиям

UT=U-1,  UT U=L,

где L – диагональная матрица собственных чисел матрицы : L=diag [li, i= ], li – i-е собственное число матрицы . Для поиска матрицы U составим характеристическое уравнение |lE- |=0; решив его, найдем собственные числа, которые упорядочим  в направлении уменьшения l1³l2³…³lk>0. Для каждого собственного числа найдем соответствующий ему какой-либо ненулевой собственный вектор gi, решив однородную систему уравнений (liE- )gi=0, i= . Построим систему нормированных собственных векторов ui= , i= . Тогда матрица U =[u1 u2 … uk] и, как следствие,

L= =UTAATU.

Представим L=L0.5L0.5,  L0.5= . Тогда справедливо равенство L0.5=UTA, из которого следует

A=UL0.5.                                                                                                  (П2.3)

Таким образом, матрица A построена. Ее первым столбцом будет вектор u1, вторым – u2 и т.д. Матрица F значений главных компонентов тогда однозначно находится из равенства Y=AF, т.е.

F=A-1Y= L-0.5UTY.                                                                                       (П2.4) 

Обсудим прикладную направленность полученных результатов. По определению матрицы L и подобны. Для них выполняется

Sp L=Sp UT U=Sp UUT = Sp =k Þ ,

т.е. сумма собственных чисел матрицы равняется общей дисперсии начальных признаков. С другой стороны, из определения матрицы A следует ATA=L0.5UTUL0.5=L или в развернутом виде:

= ,

что порождает равенства

Но величина gj= , как было показано ранее, определяет вклад j-го главного компонента в суммарную дисперсию исходных признаков. Следовательно, с позиций матрицы этот вклад определяется ее собственными числами (gj=lj), а так как эти числа упорядочены, то наибольший вклад определяет число l1, т.е. первый главный компонент, второй по величине вклад определяет число l2, т.е. второй главный компонент, и т. д. Относительный (удельный) вклад j-го главного компонента в общую дисперсию будет равен , так как k – суммарная дисперсия. Первые m главных компонентов внесут вклад, равный dm= . Обычно для последующего, например регрессионного, анализа используют m первых компонентов, для которых dm³0.6÷0.7.

Действуя по плану, изложенному  в приложении2, сначала сформируем матрицу Х3 экспериментальных данных и найдем её некоторые характеристики (эмпирическое среднее mx3, несмещенную оценку дисперсии s и среднеквадратическое отклонение sko):















 

 

 

 

 

 

 

 

 

С использованием полученных величин  строится матрица Y, которая имеет вид:







 

 

 

 

Матрица R представляет собой  эмпирически найденную корреляционную матрицу исходных признаков X3. Найдем её:





 

 

Если исходить из соотношений  для экспериментальных данных, удовлетворяющих исходной модели, то должно выполняться:



 

где F - матрица возможных  значений главных компонентов на n объектах.



 

 

Необходимо, чтобы главные  компоненты удовлетворяли условиям центрированности, нормировки и взаимной некоррелированности (ортогональности), что достигается при выполнении равенств: 













 

 

 

 

 

В этом случае:  



 

Матрица R неотрицательно определенная. Тогда существует ортогональная  матрица U, диагонализирующая матрицу R, т.е. удовлетворяющая условиям:





 

 

Определим собственные  числа матрицы RX, с помощью встроенной функции Mathcad:



 

 

Для поиска матрицы U составим характеристическое уравнение:



 

решив, которое найдем собственные числа λ:





 

 

С помощью функции augment составим матрицу U:





 

 

Матрицы U имеет своим следствием представление вида:



 

Матрицу Λ так же можно  представить в виде:



и обозначим

 



 



 

 

 

Справедливо следующее  равенство:



 

 

Отсюда найдем А:



 

 

Матрица F значений главных  компонентов однозначно находится  из равенства:



 



 

С другой стороны,  из определения матрицы А следует:



 

 

что порождает равенство вида:



 

 

 

Однако, известно, что  этим выражением определяется вклад j-го главного компонента в суммарную дисперсию исходных признаков. Определим эту величину:





 

 

 

Относительный вклад j-го компонента в общую дисперсию будет вычисляться следующим образом:





 

 

По итогам компонентного  анализа можно сказать, что наибольший вклад в общую дисперсию определяет число λ1 , т. е. первая главная компонента, а второй по величине вклад – число λ2, т. е. вторая главная компонента. Это в свою очередь означает, что экзогенная переменная х1 (мощность двигателя) оказывает большее влияние на эндогенную переменную у (расход топлива), чем экзогенная переменная х2 (масса автомобиля). Иначе говоря, на расход топлива больше влияет мощность двигателя, что и было доказано раннее.

Задание 16

Используя построенные  регрессионные  модели, определите, на сколько изменится расход горючего (уменьшится или увеличится), если мощность двигателя “вашего” автомобиля возрастет на 10 л.с. при сохранении массы автомобиля. Для приближенного анализа можно положить =0, если это не было доказано ранее.

Напомним, как выглядит полученная нами модель:



 



 

 

 

 

 

 

 

 

Полагая, что мощность двигателя автомобиля возрастет на 10 л.с. при сохранении массы автомобиля, откорректируем модель:



 



 

 

 

 

 

 

 

 

Определим, как изменится  расход горючего, при заданных условиях:



 

 

 

 

 

 

 

 

Таким образом, при увеличении мощности двигателя автомобилей Volkswagen на 10 л.с. расход горючего уменьшился 2.782 галлон/миль.

Задание 17

Воспользовавшись вашей  регрессионной моделью, рассчитайте, каков должен быть расход горючего у автомобилей марок Cadillac и Fiat, характеристики которых содержатся в уже использованной вами сводке статистических данных,  и у отечественных автомобилей марок  ВАЗ 21011, ВАЗ 2106, ВАЗ 2109. Сопоставьте полученные вами результаты с паспортными данными.

Перед тем, как проводить  расчеты, необходимо все данные перевести  в одну систему измерений (либо американскую галлон/миль, либо отечественную литр/100 км). Будем использовать в качестве единиц измерения литр/100 км. Характеристики автомобилей Cadilac и Fiat даны в исходной таблице данных, их необходимо преобразовать другие единицы измерений (литр/100 км). Сделаем это.

Сопоставим единицы  измерения:

1 галлон = 3.785 литра  → 1 литр = 0.264 галлон

1 миля = 1.609 км   → 1 км = 0.62 мили

1 фунт = 0.4536 кг  → 1 кг = 2.2 фунта

  Рассчитаем расход горючего у автомобиля марки Cadilac. Для начала введем исходные данные:

Информация о работе Построение и исследование регрессионных моделей