Применение методов регрессионного анализа в статистике

Автор работы: Пользователь скрыл имя, 14 Января 2013 в 14:47, реферат

Описание работы

Слово “статистика” приходит от латинского слова status (состояние), которое употреблялось в значении “политическое состояние”. В научный оборот слово “статистика” ввёл профессор Геттингенского университета Готфрид Ахенваль (1719 - 1772), и понималось оно тогда как государствоведение.
Сейчас же, под термином “статистика” понимается три значения:

Содержание работы

Содержание
1. Введение
2. Регрессионный анализ
2.1. Метод наименьших квадратов
2.2. Метод наименьших модулей
2.3. Метод минимакса
3. Статистическое моделирование связи методом корреляционного и регрессионного анализа
4. Проверка адекватности регрессионной модели
5. Заключение
6. Список литературы

Файлы: 1 файл

Теория.doc

— 213.00 Кб (Скачать файл)

Министерство  общего и профессионального

образования Российской Федерации

 

 

Нижегородский Государственный Университет

 

 

Кафедра:

“ ”

 

 

 

 

КУРСОВАЯ РАБОТА

по курсу

“СТАТИСТИКА”

на тему:

«Применение методов регрессионного анализа в статистике»

 

 

 

                              Выполнил:

                                    cтудент группы
 
                                                                         

Проверил:

 

 

                                                         

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижний Новгород 
2012

Содержание

1. Введение

2. Регрессионный анализ

   2.1. Метод наименьших квадратов

   2.2. Метод наименьших модулей

   2.3. Метод минимакса

3. Статистическое моделирование связи методом  корреляционного и регрессионного анализа

4. Проверка адекватности регрессионной модели

5. Заключение

6. Список литературы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Введение

Слово “статистика” приходит от латинского слова status (состояние), которое употреблялось в значении “политическое состояние”. В научный  оборот слово “статистика” ввёл профессор Геттингенского университета Готфрид Ахенваль (1719 - 1772), и понималось оно тогда как государствоведение.

Сейчас же, под термином  “статистика” понимается три значения:

  • Отрасль практической деятельности (“статистический учёт”) по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни; эту деятельность на профессиональном уровне осуществляет государственная статистика – Государственный комитет по статистике Российской Федерации и система его учреждений, организованных по административно-территориальному признаку, а также ведомственная статистика (на предприятиях, в объединениях, ведомствах, министерствах);
  • Совокупность цифровых сведений, статистические данные, предоставляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемые в сборниках, справочниках, периодической прессе, которые являются результатом статистической работы;
  • Отрасль общественных наук, специальная научная дисциплина, изучаемая в высших и средних специальных учреждениях.

В экономических  исследованиях часто решают задачу выявления факторов, определяющих уровень  и динамику экономического процесса.    

Такая задача чаще всего решается методами корреляционного, регрессионного, факторного и компонентного анализа. Задача регресизм

Все многообразие факторов, которые воздействуют на изучаемый процесс, можно разделить  на две группы: главные (определяющие уровень изучаемого процесса) и второстепенные. Последние часто имеют случайный  характер, определяя специфические и индивидуальные особенности каждого объекта исследования.

Взаимодействие  главных и второстепенных факторов и определяет колеблемость исследуемого процесса. В этом взаимодействии синтезируется  как необходимое, типическое, определяющее закономерность изучаемого явления, так и случайное, характеризующее отклонение от этой закономерности. Случайные отклонения неизбежно сопутствуют любому закономерному явлению.Однак

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.[1]

Не все факторы, влияющие на экономические процессы, являются случайными величинами. Поэтому  при анализе экономических явлений  обычно рассматриваются связи между  случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом

о при  небольшой взаимосвязи между  переменными, если стандартизовать  переменные и рассчитать уравнение  регрессии для стандартизованных  переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию. Стандартизация переменных. Бета коэффициенты. Коэффициенты в последнем уравнении получены при одинаковых масштабах изменения всех переменных и сравнимы. В случае взаимосвязи между аргументами в правой части уравнения могут происходить странные вещи. Надежность и значимость коэффициента регрессии. Здесь  обозначен коэффициент детерминации, получаемый при

ется  смещенной оценкой. Абсолютные значения коэффициентов не позволяют сделать такой вывод.

2. Регрессионный анализ. Рассмо

Термин  "регрессия" (лат. - "regression" - отступление, возврат  к чему-либо) введен английским психологом и антропологом Ф.Гальтпном в  конце 19-го века и связан только со спецификой одного из первых конкретных примеров,  в котором это понятие было использовано. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.

С целью математического  описания конкретного вида зависимостей с использованием регрессионного анализа  подбирают класс функций, связывающих результативный показатель y и аргументы x1, x2,…,хk , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют точность полученного уравнения.[3]

Функция  f(x1, x2,…,хk ), описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии.

никДля точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f(x1, x2,…,хk), основанных на исходных статистических данных.

В рамках отдельных  модельных допущений о типе распределения вектора показателей (у, x1, x2,…,хk) может быть получен общий вид уравнения регрессии f(x)=M(y/x) x=(x1, x2,…,хk) . Например, в предложении, что исследуемая совокупность показателей подчиняется (k + 1) - мерному нормальному закону распределения с вектором математических ожиданий

M = ,

где Mx = , my = MY

и ковариационной матрицей S =  ,

где syy = s2у = M (y-My) ;

     S yx  = ;  S xx =  ;

 

s ij = M (xi – Mxi);(xj – Mxj); sjj = sj = M (xj – Mxj) .[12]

 

Из этого следует, что уравнение регрессии (условное математическое ожидание) имеет вид:

M(y/x) = my + (x - Mx).

Таким образом, если многомерная  случайная величина (у, x1, x2,…,хk ) подчиняется (k +1)-мерному нормальному закону распределения, то уравнение  регрессии  результативного показателя  у по объясняющим переменным x1, x2,…,хk  имеет линейный по х вид. Метод вкопределены.

Однако в статистической практике обычно приходится  ограничиваться поиском  подходящих аппроксимаций  для неизвестной истинной функции  регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных эначениях аргументов х=х.

Рассмотрим взаимоотношение  между истиной f(х)= M(y/x), модельной  у и оценкой у  регрессии. Од

Пусть результативный показатель у связан с аргументом  х соотношением::

y  =  + e ,

где e - случайная величина, имеющая нормальный закон распределения, причем М e = 0 и

D e = .

Истинная функция регрессии  в этом случае имеет вид:

F(x) = M(y/x) = 2x .

Предположим, что точный вид истинного уравнения регрессии  нам не известен, но мы располагаем  девятъю  наблюдениями над двумерной  случайной величиной, связанной  соотношением  уi = 2x + ei, и предcтавленной на рисунке:

        у


      70


      60


      50


      40


      30


      20


      10


        0


0 2     4         6            8    10                

Взаимное расположение истинной f(x) и теоритической у  модели регрессии.

 

 

 Расположение точек  на рисунке позволяет ограничиться классом линейных зависимостей вида: у = b0 + b1 x.[2]

С помощью метода наименьших квадратов найдем оценку уравнения  регрессии

 у = b0 +b1 x.

Дли сравнения на рисунке  приводятся графики истинной функции  регрессии f{х) =2x , теоретической аппроксимирующей функции регрессии = b0 + b1 x.  К последней сходится по вероятности оценка уравнения регрессии при неограниченном увеличении объема выборки (n ).

Поскольку мы ошиблись в  выборе класса функции регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е., как бы мы не увеличивали объем наблюдений, наша выборочная оценка не будет сходиться к истинной функции регрессии f(х). Задача регрессионного анализа состоит в потруда).

Если бы мы правильно выбрали  класс функций регрессии, то неточность в описании f(x) с помощью  объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при n .

С целью наилучшего восстановления по исходным статистическим данным условного  значения результатирующего показателя у(х) и неизвестной функции регрессии f(x) = M(y/x) наиболее часто используют следующие критерии адекватности (функции потерь).[2]

1. Метод наименьших квадратов,  согласно которому минимизируется  квадрат отклонения наблюдаемых  значений результативного показателя yi(i=1,2,…,n) от модельных значений  i = f(xi, b), где b = (b0, b1,…,bk) - коэффициенты уравнения регрессии, xi – значение вектора аргументов в i-м наблюдении:

Решается задача отыскания  оценки вектора b. Получаемая регрессия называется среднеквадратической

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда  .

Для решения задачи регрессионного анализа методом наименьших квадратов  вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная  система является системой   линейных уравнений с   неизвестными 

Если представить свободные  члены левой части уравнений  матрицей

а коэффициенты при неизвестных в правой части  матрицей

то получаем матричное уравнение:  , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения  наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова).

2. Метод наименьших  модулей, согласно которому минимизируется  сумма абсолютных отклонений  наблюдаемых значений результативного  показателя от модульных значений = f(xi, b), т.е.

.

Получаемая  регрессия называется среднеабсолютной (медианой).

3. Метод минимакса  сводится к минимизации максимума  модуля отклонения наблюдаемого  значения результативного показателя yi от модельного значения f(xi, b), т.е.

.

Получаемая  при этом регрессия называется минимаксной. Рассмвключает всеВ практических положениях часто встречаются задачи, в которых изучается случайная величина у, зависящая от некоторого множества переменных x1, x2,…,хk  и неизвестных параметров bj(j=0,1,2,…,k). Будем рассматривать (у, x1, x2,…,хk ) как (k +1) – мерную генеральную совокупность, из которой взята случайная выборка объемов n, где (уi,xi1,xi2,…,xik) результат i-го наблюдения i=1,2,…,n. Требуется по результатам наблюдений оценить неизвестные параметры bj(j=0,1,2,…,k). [1]

 

3. Статистическое  моделирование связи методом   корреляционного и регрессионного  анализа.

Задачи корреляционного  анализа сводятся к измерению  тесноты известной связи между  варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак. [1]

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии). Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии. Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы будет посвящена регрессии, целью которой является построение моделей, предсказывающих вероятности событий. Величина называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами, ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные как неслучайные значения. Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения (например, назначили зарплату работнику), а затем измеряют (оценили, какой стала производительность труда).

Информация о работе Применение методов регрессионного анализа в статистике