Регрессионный анализ

Автор работы: Пользователь скрыл имя, 28 Февраля 2013 в 12:29, контрольная работа

Описание работы

Целью данной работы является раскрытие сущности регрессионного анализа, приведение некоторых моделей регрессии и оценка моделей на адекватность. В практической части работы приведены данные о посевных площадях и валовом сборе урожая по Челябинской области за период 2000 – 2009 гг.

Содержание работы

Введение
3
1. Регрессионный анализ: сущность, модели и оценка
4
1.1 Сущность регрессионного анализа
4
1.2 Выбор вида уравнения регрессии
4
1.3 Вычисление коэффициентов уравнения регрессии
5
1.4 Виды моделей регрессии и расчет параметров методом МНК
6
1.5 Проверка модели на адекватность
8
2. Регрессионный анализ посевной площади и валовом сборе по Челябинской области

10
Заключение
15
Список литературы
17

Файлы: 1 файл

Регрессионный анализ. №1470.doc

— 178.50 Кб (Скачать файл)

Содержание

Введение 

3

1. Регрессионный анализ: сущность, модели и оценка 

4

1.1 Сущность регрессионного  анализа

4

1.2 Выбор вида уравнения  регрессии

4

1.3 Вычисление  коэффициентов уравнения регрессии

5

1.4 Виды моделей  регрессии и расчет параметров  методом МНК

6

1.5 Проверка модели  на адекватность

8

2. Регрессионный анализ  посевной площади и валовом  сборе по Челябинской области

 

10

Заключение 

15

Список литературы

17


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение 

Регрессионный анализ, раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x1, y1), ..., (xn, yn) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой.

Целью данной работы является раскрытие сущности регрессионного анализа, приведение некоторых моделей  регрессии и оценка моделей на адекватность. В практической части  работы приведены данные о посевных площадях и валовом сборе урожая по Челябинской области за период 2000 – 2009 гг.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Регрессионный  анализ

1.1 Сущность  регрессионного анализа

Регрессионный анализ —  метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные.

Регрессия – это зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), т.е. E(y/x) = f(x).

Регрессионным анализом называется поиск такой функции, которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих: y = f(x) + v, где

f(x) – функция регрессионной зависимости,

v – аддитивная случайная величина с нулевым математическим ожиданием.

Решение задачи регрессионного анализа целесообразно разбить  на несколько этапов:

предварительная обработка экспериментальных данных;

выбор вида уравнений  регрессии;

вычисление коэффициентов  уравнения регрессии;

проверка адекватности построенной функции результатам наблюдений.

1.2 Выбор вида уравнения регрессии

Задача определения  функциональной зависимости, наилучшим  образом описывающей экспериментальные данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде y = f(x1, x2, ...xn) + e, где

f – заранее не известная  функция, подлежащая определению;

e – ошибка аппроксимации.

Указанное уравнение принято называть выборочным уравнением регрессии y на x. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

В регрессионное уравнение  не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться  так, чтобы ошибка e в некотором  смысле была минимальна.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение  линейной регрессии .

1.3 Вычисление коэффициентов уравнения регрессии

Систему уравнений  на основе имеющихся экспериментальных данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК  лежат следующие положения:

– значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

– математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

– выборочная оценка дисперсии ошибки должна быть минимальна.

1.4 Виды моделей регрессии и расчет параметров методом МНК

а) Линейная модель

Если с  ростом факторного признака равномерно растет и результативный признак, то зависимость между ними может  быть выражена прямой ŷ = а0 + а1х (связь между выпуском продукции и стоимостью основных производственных фондов, урожайность и количество внесенных удобрений и т.д.), которое называется линейным уравнением регрессии, параметры находятся из системы нормальных уравнений:

Параметр а1 называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признака х на одну единицу.      

б) Полином  второй степени (парабола)

Параметр  а2 характеризует степень ускорения или замедления кривизны параболы (при a2 > 0 парабола имеет минимум, при a2 < 0 – максимум). Параметр а1 характеризует крутизну кривой, параметр а0 – вершину параболы.

Ŷ = а0 + а1х + а2х2

в) Гиперболическая модель

В ряде случаев обратная связь между факторным и результативным признаками может быть выражена уравнением гиперболы: (связь между выпуском продукции и себестоимостью, уровнем издержек обращения и товарооборотом и т.д.).

Система нормальных уравнений: .

Произведем линеаризацию модели путем замены .

В результате получим  линейное уравнение  .

г) Степенная функция

Имеет вид . Параметр а1 называется показателем эластичности и показывает, на сколько процентов изменится Y при возрастании Х на 1% (зависимость между фондом оплаты труда и выпуском продукции, затратами труда и выпуском продукции и т.д.).

Коэффициенты регрессии находятся методом наименьших квадратов по системе нормальных уравнений:

Для построения этой модели необходимо произвести линеаризацию переменных. Для этого произведем логарифмирование обеих частей уравнения: lg = lg a0 + а1lg x.

Обозначим Y = lg , X = lg x, A = lg a0, тогда уравнение примет вид: Y = A + а1X – линейное уравнение регрессии.

 

д) Показательная модель

Если факторный  признак растет в арифметической прогрессии, а результативный –  в геометрической, то такая зависимость выражается показательной функцией. Показательная модель имеет вид Ý = а0·а1х, коэффициенты регрессии находятся МНК: .

Для построения этой модели осуществим логарифмирование обеих  частей уравнения: lg y = lg a0 + x∙lg а1

Обозначим: Y = lg y, А1 = lg а1, A0 = lg a0.

Получим линейное уравнение  регрессии: Y = A0 + А1x.

Таким образом, применение различных функций в качестве уравнения связи сводится к определению  параметров уравнения по способу  наименьших квадратов при помощи системы нормальны уравнений.

1.5 Проверка  модели на адекватность

Оценка модели проводится по следующим показателям: коэффициент  детерминации, коэффициент Фишера и  ошибка аппроксимации.

Коэффициент детерминации характеризует роль факторной вариации в общей вариации. Коэффициент детерминации является более конкретным показателей, чем коэффициент корреляции, т.к. он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основание группировки. Определяется по формуле:

F – критерий Фишера рассчитывают для оценки существенности связи.

, где 

R2 – коэффициент детерминации;

n – число наблюдений;

m – число параметров.

Если уравнение  линейное, то m = 2 (параметры а0 и а1), если криволинейное (например, парабола), то m = 3 (параметры а0, а1 и а2).

Расчетное значение критерия сравнивают с табличным критическим значением F(α; K1 = m – 1; K2 = n – m)

Коэффициент аппроксимации показывает точность модели и рассчитывается по формуле: . При А = 3 – 5%, модель признается точной.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Регрессионный анализ посевной площади и валовом сборе по Челябинской области

Приведены данные по Челябинской  области о посевной площади и  валовом сборе за период 2000 – 2009 гг.

Таблица 1

Исходные данные

Год

Посевная площадь,

тыс. га (х)

Валовые сборы с/х культур, тыс. тонн (у)

2000

2062,9

5181,4

2001

2042,2

5675,0

2002

2033,6

5448,1

2003

1907,6

5245,2

2004

1883,9

5491,6

2005

1847,7

5420,6

2006

1834,0

5595,1

2007

1821,4

5531,7

2008

1874,2

6338,2

2009

1895,7

5954,1


 

По исходным данным рассчитаем параметры регрессионной линейной  модели, сделаем прогноз на 2010 год и оценим модель на адекватность.

Прямолинейной называется связь, когда величина явления  изменяется приблизительно равномерно в соответствии с изменением величины влияющего фактора. Математически прямолинейная связь может быть выражена уравнением прямой: , коэффициенты которой находятся по формулам: , .

Параметр b1 называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признака х на одну единицу.      

Найдем параметры модели парной линейной регрессии:

;

 5588,1 – (–1,096) ∙ 1920,3 = 7692,5

Тогда уравнение регрессии .

 

Таблица 2

Расчет показателей

i

x

y

xy

x2

y2

e2

1

2

3

4

5

6

7

8

9

10

11

12

2000

2062,9

5181,4

10688563,2

4255519,7

26846399,5

5431,9

-250,5

62753,8

20326,7

165443,8

0,0483

2001

2042,2

5675,0

11589502,0

4170582,8

32205704,9

5454,5

220,5

48609,0

14855,0

7553,0

0,0389

2002

2033,6

5448,1

11079229,4

4135565,5

29681387,6

5463,9

-15,9

252,3

12834,6

19610,1

0,0029

2003

1907,6

5245,2

10005877,8

3639023,6

27512212,1

5602,0

-356,8

127309,4

161,2

117573,8

0,0680

2004

1883,9

5491,6

10345684,9

3549063,6

30158150,8

5628,0

-136,4

18596,9

1326,7

9303,6

0,0248

2005

1847,7

5420,6

10015656,5

3413967,3

29383226,7

5667,7

-247,1

61038,1

5274,7

28045,9

0,0456

2006

1834,0

5595,1

10261638,4

3363734,2

31304858,2

5682,6

-87,6

7667,8

7442,6

48,7

0,0157

2007

1821,4

5531,7

10075539,9

3317560,1

30599747,9

5696,5

-164,8

27152,2

9781,6

3180,4

0,0298

2008

1874,2

6338,2

11878834,3

3512489,4

40172848,0

5638,7

699,5

489336,5

2130,3

562659,8

0,1104

2009

1895,7

5954,1

11286903,9

3593494,9

35451337,6

5615,1

339,0

114901,4

608,5

133958,7

0,0569

Итого:

19203,2

55881,0

107227430,3

36951001,2

313315873,4

 

0,0

957617,4

74742,0

1047377,8

0,4413

Сред.:

1920,3

5588,1

10722743,0

3695100,1

31331587,3

           

Информация о работе Регрессионный анализ