,
но
, очевидно
.
Следовательно:
.
Т.о. проверка гипотез о значимости
коэффициентов регрессии и корреляции
равносильна проверке гипотезы о существенности
линейного уравнения регрессии.
Если
<
, но
отклоняется, т.е.
не случайно отличаются от нуля и
сформировались под влиянием систематически
действующего фактора
. Если
>
, то
не отклоняется и признается случайная
природа формирования
или
.
Для расчета доверительного
интервала определяем предельную ошибку
для каждого
показателя:
,
тогда формула для расчета доверительных
интервалов имеют следующий вид:
Если в границы доверительного
интервала попадает ноль, т.е. нижняя граница
отрицательна, а верхняя положительна,
то оцениваемый параметр принимается
нулевым, т.к. он не может одновременно
принимать и положительное и отрицательное
значения.
Прогнозное значение
определяется путем подстановки в
уравнение регрессии
соответствующего прогнозного значения
. Вычисляется средняя стандартная
ошибка прогноза
и строится доверительный интервал
прогноза
.
Рассмотренные формулы стандартных
ошибок предсказываемого среднего значения
при заданном
характеризует ошибку положения линии
регрессии,
при
, и возрастает при удалении
от
.
Но фактические значения
варьируют около среднего
, индивидуальные значения
могут отклоняться на величину
, дисперсия которой оценивается как
остаточная дисперсия на одну степень
свободы, поэтому ошибка предсказываемого
индивидуального значения
должна включать не только
, но и случайную составляющую
, или
.
Таким образом, была рассмотрена
интервальная оценка функции регрессии
и ее параметров.
=================================
====================================
4. Оценка значимости уравнения
регрессии и особенности применения
коэффициента детерминации
После того как найдено уравнение
линейной регрессии, проводится оценка
значимости как уравнения в целом, так
и отдельных его параметров.
Оценка значимости уравнения
регрессии в целом дается с помощью F-критерия
Фишера. При этом выдвигается нулевая
гипотеза, коэффициент регрессии равен
нулю, то есть b=0, и, следовательно, фактор
х не оказывает влияния на результат у.
Непосредственному расчету F-критерия
предшествует анализ дисперсии. Центральное
место в нем занимает разложение общей
суммы квадратов отклонений переменной
у от среднего значения у на две части
– «объясненную» и «необъясненную».
Общая сумма квадратов отклонений
индивидуальных значений результативного
признака у от среднего значения у вызвана
влиянием множества причин. Условно всю
совокупность причин можно разделить
на две группы:
- изучаемый фактор х
- прочие факторы
Если фактор не оказывает влияния
на результат, то линия регрессии на графике
параллельна оси охи у = ŷ. Тогда вся дисперсия
результативного признака обусловлена
воздействием прочих факторов и общая
сумма квадратов отклонений совпадает
с остаточной. Если же прочие факторы не
влияют на результат, то у связан с х функционально
и остаточная сумма квадратов равна нулю.
В этом случае сумма квадратов отклонений,
объясненная регрессией, совпадает с общей
суммой квадратов.
Поскольку не все точки поля
корреляции лежат на линии регрессии,
то всегда имеет место их разброс как обусловленный
влиянием фактора х, то есть регрессией
у по х, так и вызванный действием прочих
величин (необъясненная вариация). Пригодность
линии регрессии для прогноза зависит
от того, какая часть общей вариации признака
у приходится на объясненную вариацию.
Очевидно, что если сумма квадратов отклонений,
обусловленная регрессией, будет больше
остаточной суммы квадратов, то уравнение
регрессии статистически значимо и фактор
х оказывает существенное влияние на результат
у. Это равносильно тому, что коэффициент
детерминации r2xy будет приближаться к
единице5.
Любая сумма квадратов отклонений
связана с числом степеней свободы (df –
degrees of freedom), то есть с числом свободы независимого
варьирования признака. Число степеней
свободы связано с числом единиц совокупности
n и с числом определяемых по ней констант.
Применительно к исследуемой проблеме
число степеней свободы должно показать,
сколько независимых отклонений из n возможных
[(y1-y), (y2-y),…,(yn-y)] требуется для образования
данной суммы квадратов. Так, для общей
суммы квадратов ∑(y-y)2 требуется (n-1) независимых
отклонений.
При расчете объясненной или
факторной суммы квадратов ∑(ŷx -y)2 используются
теоретические (расчетные) значения результативного
признака ŷx, найденные по линии регрессии:
ŷx=а+b*x.
В линейной регрессии сумма
квадратов отклонений, обусловленных
линейной регрессией, составит: ∑(ŷx -y)2=b2*∑(x
–x)2.
Поскольку при заданном объеме
наблюдений по х и у факторная сумма квадратов
при линейной регрессии зависит только
от одной константы коэффициента регрессии
b, то данная сумма квадратов имеет одну
степень свободы. К тому же выводу придем,
если рассмотрим содержательную сторону
расчетного значения признака у, то есть
ŷx. Величина ŷx определяется по уравнению
линейной регрессии: ŷx=а+b*x. Параметр а
можно определить как: a=y-b*x. Подставив
выражение параметра а в линейную модель
получим:
ŷx= y-b*x+b*x= y-b*(х-х).
Отсюда видно, что при заданном
наборе переменных у и х расчетное значение
ŷx является в линейной регрессии функцией
только одного параметра – коэффициента
регрессии. Соответственно и факторная
сумма квадратов отклонений имеет число
степеней свободы, равное 1.
Существует равенство между
числом степеней свободы общей, факторной
и остаточной суммами квадратов. Число
степеней свободы остаточной суммы квадратов
при линейной регрессии составляет n-2.
Число степеней свободы для общей суммы
квадратов определяется числом единиц,
и поскольку используется средняя вычисленная
по данным выборки, то теряем одну степень
свободы, то есть dfобщ= n-1.
Итак, имеется два равенства:
∑(у-у)2=∑( ŷx –у)2+∑(у- ŷx)2,
n-1=1+(n-2).
Разделив каждую сумму квадратов
на соответствующее ей число степеней
свободы, получим средний квадрат отклонений,
или, что то же самое, дисперсию на одну
степень свободы D.
Dобщ=∑(у-у)2/(n-1);
Dфакт=∑( ŷx –у)2/1;
Dост=∑(у- ŷx)2/(n-1).
Определение дисперсии на одну
степень свободы приводит дисперсии к
сравнимому виду. Сопоставляя факторную
и остаточную дисперсии в расчете на одну
степень свободы, получим величину F-отношения
(F-критерия):
F= Dфакт/ Dост, где
F – критерий для проверки
нулевой гипотезы Н0: Dфакт=Dост.
Если нулевая гипотеза справедлива,
то факторная и остаточная дисперсии не
отличаются друг от друга. Для Н0 необходимо
опровержение, чтобы факторная дисперсия
превышала остаточную в несколько раз.
Английским статистиком Снедекором
разработаны таблицы критических значений
F-отношений при разных уровнях существенности
нулевой гипотезы и различимом числе степеней
свободы. Табличное значение F-критерия
– это максимальная величина отношения
дисперсий, которая может иметь место
при случайном их расхождении для данного
уровня вероятности наличия нулевой гипотезы.
Вычисленное значение F-отношения признается
достоверным (отличным от единицы), если
оно больше табличного. В этом случае нулевая
гипотеза об отсутствии связи признаков
отклоняется и делается вывод о существенности
этой связи: Fфакт>Fтабл. Н0 отклоняется.
Если же величина окажется меньше
табличной Fфакт<Fтабл, то вероятность
нулевой гипотезы выше заданного уровня
и она не может быть отклонена без серьезного
риска сделать неправильный вывод о наличии
связи. В этом случае уравнение регрессии
считается статистически не значимым.
Н0 не отклоняется.
Оценку качества модели дает
коэффициент детерминации. Коэффициент
детерминации (R2) - это квадрат множественного
коэффициента корреляции14. Он показывает,
какая доля дисперсии результативного
признака объясняется влиянием независимых
переменных.
Формула для вычисления коэффициента
детерминации:
где
yi - выборочные данные, а fi - соответствующие
им значения модели.
Также это квадрат корреляции
Пирсона между двумя переменными. Он выражает
количество дисперсии, общей между двумя
переменными.
Коэффициент принимает значения
из интервала [0;1]. Чем ближе значение к
1 тем ближе модель к эмпирическим наблюдениям.
В случае парной линейной регрессионной
модели коэффициент детерминации равен
квадрату коэффициента корреляции, то
есть R2 = r2.
Иногда показателям тесноты
связи можно дать качественную оценку
(шкала Чеддока).
Функциональная связь возникает
при значении равном 1, а отсутствие связи
- 0. При значениях показателей тесноты
связи меньше 0,7 величина коэффициента
детерминации всегда будет ниже 50 %. Это
означает, что на долю вариации факторных
признаков приходится меньшая часть по
сравнению с остальными неучтенными в
модели факторами, влияющими на изменение
результативного показателя. Построенные
при таких условиях регрессионные модели
имеют низкое практическое значение6.
Таким образом, была рассмотрена
оценка значимости уравнения регрессии
и особенности применения коэффициента
детерминации.===============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================
=========================================== ===============================================================================================================================================
Заключение
Итак, подведем итоги о проделанной
работе. Для практического использования
моделей регрессии большое значение имеет
их адекватность, т.е. соответствие фактическим
статистическим данным.
Анализ качества эмпирического
уравнения парной и множественной линейной
регрессии начинают с построения эмпирического
уравнения регрессии, которое является
начальным этапом эконометрического анализа.
Первое же, построенное по выборке уравнение
регрессии, очень редко является удовлетворительным
по тем или иным характеристикам. Поэтому
следующей важнейшей оценкой является
проверка качества уравнения регрессии.
В эконометрике принята устоявшаяся схема
такой проверки, которая проводится по
следующим направлениям:
- проверка статистической значимости
коэффициентов уравнения регрессии
- проверка общего качества уравнения
регрессии
- проверка свойств данных, выполнимость
которых предполагалась при оценивании
уравнения (проверка выполнимости предпосылок
МНК)
Прежде, чем проводить анализ
качества уравнения регрессии, необходимо
определить дисперсии и стандартные ошибки
коэффициентов, а также интервальные оценки
коэффициентов. Корреляционный и регрессионный
анализ, как правило, проводится для ограниченной
по объёму совокупности.
Поэтому параметры уравнения
регрессии (показатели регрессии и корреляции),
коэффициент корреляции и коэффициент
детерминации могут быть искажены действием
случайных факторов. Чтобы проверить,
на сколько эти показатели характерны
для всей генеральной совокупности и не
являются ли они результатом стечения
случайных обстоятельств, необходимо
проверить адекватность построенных
статистических моделей.
Таким образом, цели и задачи,
достигнуты, тема раскрыта.
==============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================
Список использованной литературы
- Бережная, Е.В. Математические методы моделирования экономических систем / Е.В. Бережная. - М.: Финансы и статистика, 2011. - 432 с.
- Боровков, А.А. Математическая статистика.
Учебник / А.А. Боровков. – М.: Лань, 2010. – 305 с.
- Васин, А.А. Введение в теорию игр с приложениями к экономике / А.А. Васин. – М.: Инфра, 2012. – 278 с.
- Дубров, А.М. Моделирование рисковых ситуаций
в экономике и бизнесе: Учеб. пособие / А.М. Дубров. – М. : Финансы и статистика, 2010. – 224 с.
- Печерский, С.Л. Теория игр для экономистов / С.Л. Печерский. – СПб.: Питер,
2012. – 344 с.