Автор работы: Пользователь скрыл имя, 23 Июня 2014 в 15:45, курсовая работа
Регрессия (лат. regressio - обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886 году .
1.Теоретическая часть 3
1.1 Уравнение регрессии: сущность и типы 3
1.2 Проверка адекватности уравнения регрессии 7
2.Практическая часть 13
Список используемой литературы
Содержание
1.Теоретическая часть
1.1 Уравнение регрессии: сущность
и типы
1.2 Проверка адекватности уравнения
регрессии
2.Практическая часть
Список используемой литературы
1.Теоретическая часть
1.1 Уравнение регрессии: сущность
и типы.
Регрессия (лат. regressio - обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886 году .
Теоретическая линия регрессии - это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.
Теоретическая линия регрессии должна отображать изменение средних величин результативного признака «y» по мере изменения величин факторного признака «x» при условии полного взаимопогашения всех прочих – случайных по отношению к фактору «x» - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной.
Уравнение регрессии - это формула статистической связи между переменными:
Прямая линия на плоскости (в пространстве двух измерений) задается уравнением . Более подробно: переменная (*) может быть выражена через константу (*) и угловой коэффициент (*), умноженный на переменную (*). Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или b-коэффициентом.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Вместе с тем теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи, возможности его изменения в исследуемой совокупности, правомерности использования линейной зависимости, возможного наличия экстремальных значений и т.п. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных.
Приблизительно представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия регрессии обычно является ломаной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается не полностью, в силу недостаточно большого количества наблюдений, поэтому эмпирической линией связи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.
Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей. Наиболее часто для характеристики связей экономических показателей используют следующие типы функций:
1. Линейная:
2. Гиперболическая:
3. Показательная:
4. Параболическая:
5. Степенная:
6. Логарифмическая:
7. Логистическая:
Модель парной регрессии - это модель с одной объясняющей и одной объясняемой переменными. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.
Для нахождения параметров * и * уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумка квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.
Критерий метода наименьших квадратов можно записать таким образом:
или
Следовательно, применение метода наименьших квадратов для определения параметров * и * прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум.
Относительно оценок можно сделать следующие выводы:
1. Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать.
2. Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии.
3. Эмпирическая прямая регрессии обязательно проходит через точку (*,*).
4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений равна нулю.
Коэффициент регрессии – это параметр * в уравнении регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «*» при изменении факторного признака «*» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «Х» (для уравнения ).
Раздел многомерного статистического
анализа, посвященный восстановлению
зависимостей, называется регрессионным
анализом. Термин «линейный регрессионный
анализ» используют, когда рассматриваемая
функция линейно зависит от оцениваемых
параметров (от независимых переменных
зависимость может быть произвольной).
Теория оценивания
неизвестных параметров хорошо развита
именно в случае линейного регрессионного
анализа. Если же линейности нет и нельзя
перейти к линейной задаче, то, как правило,
хороших свойств от оценок ожидать не
приходится. Продемонстрируем подходы
в случае зависимостей различного вида.
Если зависимость имеет вид многочлена
(полинома). Если расчёт корреляции характеризует
силу связи между двумя переменными, то
регрессионный анализ служит для определения
вида этой связи и дает возможность для
прогнозирования значения одной (зависимой)
переменной отталкиваясь от значения
другой (независимой) переменной. Для проведения
линейного регрессионного анализа зависимая
переменная должна иметь интервальную
(или порядковую) шкалу. В то же время, бинарная
логистическая регрессия выявляет зависимость
дихотомической переменной от некой другой
переменной, относящейся к любой шкале.
Те же условия применения справедливы
и для пробит-анализа. Если зависимая переменная
является категориальной, но имеет более
двух категорий, то здесь подходящим методом
будет мультиномиальная логистическая
регрессия можно анализировать и нелинейные
связи между переменными, которые относятся
к интервальной шкале. Для этого предназначен
метод нелинейной регрессии.
1.2 Проверка адекватности уравнения регрессии.
Для практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным. При анализе адекватности уравнения регрессии возможны следующие варианты:
1. Построенная модель
на основе F-критерия Фишера в
целом адекватна и все
2. Модель по F-критерию Фишера адекватна, но часть коэффициентов не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.
3. Модель по F-критерию
адекватна, но все коэффициенты
регрессии не значимы. Модель
полностью считается
Корреляционный и регрессионный анализ, как правило, проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции – параметры уравнения регрессии, коэффициент корреляции и коэффициент детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость
между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Чтобы иметь общее суждение о качестве модели, из относительных отклонений по каждому наблюдению определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 10-12% (рекомендовано).
Оценка значимости уравнения
регрессии в целом производится на основе F-критерия Фишера,
которому предшествует дисперсионный
анализ. В математической статистике дисперсионный
анализ рассматривается как самостоятельный
инструмент статистического анализа.
В эконометрике он применяется как вспомогательное
средство для изучения качества регрессионной
модели. Согласно основной идее дисперсионного
анализа, общая сумма квадратов отклонений
переменной (*) от среднего значения (*сред.) раскладывается на две части
– «объясненную» и «
Схема дисперсионного анализа имеет следующий вид (n –число наблюдений, m–число параметров при переменной * ):
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера.
Фактическое значение F -критерия Фишера сравнивается с табличным значением Fтабл. (α, k1, k2) при заданном уровне значимости α и степенях свободы k1= m и k2=n-m-1. При этом, если фактическое значение F-критерия больше табличного Fфакт >Fтеор , то признается статистическая значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:
Эта формула в общем виде может выглядеть так:
Отношение объясненной части
дисперсии переменной (у) к общей дисперсии называют
Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0≤ R2 ≤1. Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии. Чем больше R2, тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии. Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе? Ответ на этот вопрос дает F - критерий Фишера Fфакт > Fтеор - делаем вывод о статистической значимости уравнения регрессии. Величина F - критерия связана с коэффициентом детерминации R2xy (r2xy), и ее можно рассчитать по следующей формуле:
Либо при оценке значимости индекса (аналог
где: - индекс (коэффициент)
Использование коэффициента множественной детерминации R2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2. Поэтому, при большом количестве факторов, предпочтительнее использовать, так называемый, улучшенный, скорректированный коэффициент множественной детерминации R2, определяемый соотношением:
где p – число факторов в уравнении
регрессии, n – число наблюдений. Чем больше
величина p, тем сильнее различия между
множественным коэффициентом детерминации R2 и