Кореляционно-регрессионный анализ

Автор работы: Пользователь скрыл имя, 03 Марта 2013 в 21:09, контрольная работа

Описание работы

Задание № 1.
Постройте диаграммы рассеяния, представляющие собой зависимости Y от каждого из факторов Х. Сделайте выводы о характере взаимосвязи переменных.
Задание №2. а) Корреляционный анализ данных.
Прибыль (убыток) – это зависимая переменная Y (тыс. руб.).
Независимые, объясняющие переменные:
X1 – долгосрочные обязательства, руб.;
X4 – основные средства, руб.;
X5 – дебиторская задолженность (краткосрочные), руб.
Количество наблюдений n = 50, количество объясняющих переменных m = 3.

Файлы: 1 файл

конт.раб света.docx

— 5.91 Мб (Скачать файл)

4) Так как Fнабл(4,5) < Fтабл < Fнабл(1,5) (2,08 < 4,052 < 44,30), выбираем «короткую» регрессию с факторами Х4, Х5.

Ŷ = - 120917,83  +  0,32Х4  +  0,09Х5

3. Построение уравнения множественной регрессии в линейной форме с выбранными факторами.

Для учета влияния факторов, воздействующих на прибыль (убыток) от добычи сырой нефти и природного газа используется множественная регрессия:

  yi = a0 + a1· xi1 + a2· xi2 + … + aj · xij +…+ am· xim + εi ,

где i = 1,2,…,n – номер наблюдения,

      j = 1,2,…,m – номер фактора,


Уравнение множественной  регрессии рассчитываем с помощью  функции ЛИНЕЙН.

 

Ŷ = - 120 917,83  +  0,32Х4  +  0,09Х5

 

Коэффициент регрессии при  каждом из двух факторов характеризует  среднее изменение Прибыли (убытка) Y с изменением Основных средств X4 и Дебиторской задолженности (краткосрочной) X5 на одну единицу, при условии, что другой не изменяется. Например, величина, равная 0,09 (коэффициент при X5), показывает, что при увеличении запасов готовой продукции и товаров для перепродажи на 1000 руб. прибыль увеличится на 0,09 тыс. руб.

Расчетные значения Y определяются путем последовательной подстановки в эту модель значений факторов, взятых для каждого наблюдения, или из последней таблицы регрессионного анализа Вывод остатка (столбец Предсказанное Y).

 

4. Сравнительная оценка силы связи факторов с результатом с помощью коэффициентов эластичности, b- и D-коэффициентов.


 

 

Учитывая, что коэффициент  регрессии невозможно использовать для непосредственной оценки влияния  факторов на зависимую переменную из-за различия единиц измерения и разной колеблемости факторов, используем коэффициенты эластичности и бета-коэффициенты:

Э4 = 0,32 ´ 2467176,64 / 826148,04 = 0,81;

Э5 = 0,09 ´ 1883334,96 / 826148,04 = 0,21.

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении  фактора на один процент.

β4 = 0,32 ´ 7413147,46 / 2811671,66 = 0,71;

β5 = 0,09 ´ 5804522,84 / 2811671,66 = 0,19.

Бета-коэффициент с математической точки зрения показывает, на какую  часть величины среднеквадратического  отклонения меняется среднее значение зависимой переменной с изменением независимой переменной на одно среднеквадратическое отклонение при фиксированных на постоянном уровне значениях остальных независимых переменных. Это означает, что при увеличении дебиторской задолженности на 5804522,84 тыс. руб. прибыль увеличится на 534217,60 тыс. руб. (0,19 × 2811671,66).

Долю влияния фактора  в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Dj:

D4 = 0,953 × 0,71 / 0,91 = 0,74;

D5 = 0,508 × 0,19 / 0,91 = 0,106.

Вывод: на прибыль (убыток) более сильное влияние оказывает фактор Основные средства.

5. Расчет параметров линейной парной регрессии для наиболее подходящего фактора Хj.


Уравнение линейной регрессии  имеет следующий вид:

yрасч = a0 + a1·x

Найдем значения параметров модели:

yрасч = -50626,66 + 0,36∙х4

С увеличением основных средств  Х4 на 1 млн. руб. прибыль Y увеличится в среднем на 360 тыс. руб., что свидетельствует об эффективной работе предприятий по добыче сырой нефти и природного газа.

 

6. Оценка качества построенной модели с помощью коэффициента детерминации, F-критерия Фишера.


Для модели линейной парной регрессии:

– значение коэффициента детерминации можно вычислить по формуле:

Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемого фактора. Следовательно, вариация прибыли (убытка) Y на 87,8 % объясняется вариацией фактора X4 – основных средств.

– значение F-критерия Фишера можно вычислить по формуле:

Табличное значение F-критерия при доверительной вероятности  α = 0,05 и числе степеней свободы, равном k1= m =1 и k2 = n - m -1= 50 - 1- 1=48 составляет 4,04.

Поскольку Fрасч > Fтабл, уравнение регрессии с вероятностью 0,95 следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

 

 

 

 

 

7. Проверка выполнения условия гомоскедастичности.


Гомоскедастичность – дисперсия каждого отклонения одинакова для всех Х.

Проверка на гомоскедастичность осуществляется с помощью теста  Гольдфельда–Квандта.

График можно получить в отчете, который формируется  в результате использования инструмента Регрессия в пакете Анализ данных.

 

Рис. 2. График остатков

 

1. Упорядочим переменную Y по возрастанию фактора X4 (в Excel для этого можно использовать команду Данные – Сортировка – по возрастанию X4):

2. Уберем из середины  упорядоченной совокупности С = 1/4 · n = 1/4 · 50 = 12 значений. В результате получим две совокупности соответственно с малыми и большими значениями Х4.

3. Для каждой совокупности  выполним расчеты. Результаты  получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

 

 

 

4. Найдем отношение полученных  остаточных сумм квадратов (в  числителе должна быть большая  сумма):

Fнабл = 40418798738560,10 / 536978115257,97 =75,27.

5. Вывод о наличии гомоскедастичности  остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0,05 и двумя одинаковыми степенями свободы , где р – число параметров уравнении регрессии:

Так как  , то подтверждается гетероскедастичность в остатках двухфакторной регрессии.

Проблема гетероскедастичности в большей степени характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов. Это можно объяснить следующим образом: при перекрестных данных учитываются экономические субъекты (потребители, домохозяйства, фирмы, отрасли, страны и т. п.), имеющие различные доходы, размеры, потребности. Но в этом случае возможны проблемы, связанные с эффектом масштаба. 

Во временных рядах обычно рассматриваются одни и те же показатели в различные моменты времени (например, ВНП, чистый экспорт, темпы инфляции и т. д. в определенном регионе за определенный период времени). Однако при увеличении (уменьшении) рассматриваемых показателей с течением времени может также возникнуть проблема гетероскедастичности.

 

8. Используя результаты регрессионного анализа, выполнение ранжирования компаний по степени эффективности.

Эффективность деятельности компаний по добыче сырой нефти и  природного газа определяется прибылью. Упорядочим переменные, воспользовавшись командой Данные – Сортировка – по возрастанию Прибыль (убыток).


Далее с помощью инструмента Регрессия проанализируем вывод остатка по нашим данным.

 

В результате по степени  эффективности:

– на первом месте находится предприятие №5;

– на втором месте находится предприятие №16;

– на третьем месте находится предприятие № 8.

 

 

 

 

 

 

9. Осуществление прогнозирования среднего значения показателя Y при уровне значимости α = 0,1, если прогнозное значение фактора Хj составит 80% от его максимального значения. Представление на графике фактических данных Y, результатов моделирования, прогнозных оценок и границ доверительного интервала.


Прогнозируемое значение переменной получается при подстановке  в уравнение регрессии ожидаемых  значений объясняющего фактора Х.

Для того, чтобы осуществить прогноз, необходимо рассчитать интервалы, в которых будет находиться значение показателя. Воспользуемся формулой:


 

 

Расчет элементов данной формулы представлен ниже:

E53 = СУММ (E3:E52)

F53 = (B53-B54)^2

Регрессионная статистика:

   …  

Критерий Стьюдента = 1,68 (СТЬЮДРАСПОБР (0,1;48).

Стандартная ошибка (из Регрессионной  статистики) = 992604,61.

Интервал U по формуле = 1683248,20.

В результате получаем: -1733846,44 < Yпрогн < 1632649,97.

Таким образом, с вероятностью 90% прибыль (убыток) в среднем составит от -1733846,44 млн руб. до 1632649,97 млн руб. при основных средствах, составляющих 80% от максимального значения показателя.

 

Полученные данные представим на графике:

Рис.3. График прогноза показателя «Прибыль (убыток)» с помощью Мастера диаграмм.

 

 

 

 

 

 

 

 

 

 

10. Составление уравнения нелинейной регрессии:


а) гиперболической;

б) степенной;

в) показательной.

а) Уравнение гиперболической модели:     

ŷ = a0 + a1 / x .

Для построения этой модели произведем ее линеаризацию путем замены переменных:  X= 1 / x .

Получим линейное уравнение  регрессии:

 ŷ = a0 + a1 ·X.

Далее рассчитаем параметры  модели с помощью регрессии.

Уравнение гиперболической  модели:

                        ŷ = 1069444 – 15776768621,62 / х

 

б) Уравнение степенной модели: 

             ŷ = a0·x a1.

Произведем линеаризацию уравнения путем логарифмирования его обеих частей:

            lg ŷ = lg a0 + a1· lg x .

Обозначим:  Y = lg ŷ,  A = lg a0 ,  X = lg x.         

С учетом этого получим линейное уравнение регрессии:     

            Y = A + a1 · X

Далее рассчитаем параметры  модели.

 

Уравнение регрессии имеет  вид:

                                            Y = -7503314,6 + 652996,55·X.

Перейдем к исходным переменным x и y, выполнив потенцирование   последнего уравнения:                   ŷ = 10-7503314,6·x 652996,55.

Тогда окончательно имеем  уравнение степенной модели:

                                    ŷ = 750331,46 · x652996,55

 

в) Уравнение показательной  кривой:     

ŷ = a0·a1 x.

Для построения этой модели произведем линеаризацию путем логарифмирования обеих частей уравнения:

lg ŷ = lg a0 + x · lg a1

Обозначим Y = lg ŷ,  A = lg a0 ,  B = lg a1.

Получим линейное уравнение  регрессии:  Y = A + B ·x .

Далее рассчитаем параметры  модели.

Уравнение будет иметь  вид: Y=11,03 + 0,0000017·x

Выполним потенцирование и перейдем к исходным переменным x и y:

                  ŷ = 1011,03 · (100,0000017) x = 106 025 715 881,33· 1,00000038 x

 

 

11. Приведение графиков построенных уравнений регрессии.


 

 

 

 

 

 

12. Для нелинейных моделей нахождение коэффициентов детерминации и средних относительных ошибок аппроксимации. Сравнение модели по этим характеристикам и вывод о лучшей модели.

а) гиперболическая модель:


б) степенная модель:

в) показательная модель:

Для выбора лучшей модели строим сводную таблицу результатов  расчета:

        Параметры

Модель

Коэффициент детермин. R2

Средняя отн.

Ошибка εотн

Линейная

0,878

0,028

Степенная

0,233

0,000

Показательная

0,172

1,99997

Гиперболическая

0,024

0,000054


 

Вывод. Большее значения коэффициента детерминации R2 имеет линейная модель. По значению ошибки аппроксимации все модели практически одинаковы. Выбор сделаем в пользу линейной модели, т.к. по сравнению с другими она всё же самая лучшая.

Информация о работе Кореляционно-регрессионный анализ