Автор работы: Пользователь скрыл имя, 28 Мая 2013 в 15:41, реферат
Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу
«Линейная регрессия». Рейхерт Н., 359 ОМ.
Введение
Если расчёт корреляции характеризует
силу связи между двумя переменными,
то регрессионный анализ служит для
определения вида этой связи и
дает возможность для
1. Основы линейного регрессионного анализа
Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин "линейный регрессионный анализ" используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится. Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома)
то коэффициенты многочлена могут быть найдены путем минимизации функции
Функция от t не обязательно должна быть многочленом. Можно, например, добавить периодическую составляющую, соответствующую сезонным колебаниям.
Хорошо известно, например, что инфляция (рост потребительских цен) имеет четко выраженный годовой цикл - в среднем цены быстрее всего растут зимой, в декабре - январе, а медленнее всего (иногда в среднем даже падают) летом, в июле - августе.
Пусть для определенности
тогда неизвестные параметры могут быть найдены путем минимизации функции
Пусть I(t) -индекс инфляции в момент t. Принцип стабильности условий приводит к гипотезе о постоянстве темпов роста средних цен, т.е. индекса инфляции. Таким образом, естественная модель для индекса инфляции – это
Эта модель не является линейной,
метод наименьших квадратов непосредственно
применять нельзя. Однако если прологарифмировать
обе части предыдущего
то получим линейную зависимость, рассмотренную в первом пункте настоящей главы.
Независимых переменных может быть не одна, а несколько. Пусть, например, по исходным данным требуется оценить неизвестные параметры a и b в зависимости
где - погрешность. Это можно сделать, минимизировав функцию
Зависимость от х и у не обязательно должна быть линейной. Предположим, что из каких-то соображений известно, что зависимость должна иметь вид
тогда для оценки пяти параметров необходимо минимизировать функцию
Более подробно рассмотрим
пример из микроэкономики. В одной
из оптимизационных моделей
Однако откуда взять значения параметров и ? Естественно предположить, что они - одни и те же для предприятий отрасли. Поэтому целесообразно собрать информацию где fk - объем выпуска на k-ом предприятии, Kk- объем затрат капитала на k-ом предприятии, Lk - объем затрат труда на k-ом предприятии (в кратком изложении здесь не пытаемся дать точных определений используемым понятиям из экономики предприятия). По собранной информации естественно попытаться оценить параметры и . Но они входят в зависимость нелинейно, поэтому сразу применить метод наименьших квадратов нельзя. Помогает логарифмирование:
Следовательно, целесообразно сделать замену переменных
а затем находить оценки параметров и , минимизируя функцию
Найдем частные производные:
Приравняем частные
Таким образом, для вычисления оценок метода наименьших квадратов необходимо найти пять сумм:
Для упорядочения расчета этих сумм может быть использована таблица типа той, что применялась в первом пункте настоящей главы. Отметим, что рассмотренная там постановка переходит в разбираемую сейчас при
Подходящая замена переменных во многих случаях позволяет перейти к линейной зависимости. Например, если
то замена z=1/y приводит к линейной зависимости z = a + bx. Если y=(a+bx)2, то замена приводит к линейной зависимости z = a + bx.
2. Множественная линейная регрессия
В общем случае в регрессионный
анализ вовлекаются несколько
В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения
у = b1-х1+b2-х2+... + bn-хn+а,
где n — количество независимых переменных, обозначенных как х1 и хn, а — некоторая константа.
Переменные, объявленные независимыми,
могут сами коррелировать между
собой; этот факт необходимо обязательно
учитывать при определении
В практике часто возникают ситуации, когда функция отзыва (цели) Y зависит не от одного, а от многих факторов. Установление формы связи в таких случаях начинают, как правило с рассмотрения линейной регрессии такого вида:
В таком случае результаты наблюдений должны быть представлены уравнениями, полученными в каждом из п опытов:
(1)
или в виде матрицы результатов наблюдений:
где п – количество опытов; k - количество факторов.
Для решения системы уравнений (1) необходимо, чтобы количество опытов было не меньше
k + 1, т.е. п k + 1.
Заданием множественного регрессионного анализа является построение такого уравнения прямой k-мерном пространстве, отклонение результатов наблюдений от которой были бы минимальными. Используя для этого метод наименьших квадратов, получаем систему нормальных уравнений:
которую представим в матричной форме
(ХТХ)В = XTY, (2)
где В - вектор-столбец коэффициентов уравнения регрессии;
X - матрица значений факторов;
Y - вектор-столбец функции отзыва;
XТ - транспонированная матрица X.
При = 1, , они соответственно равны:
Перемножив правую и левую часть уравнения (2) на обратную матрицу (ХТХ)-1, получим при:
Каждый коэффициент уравнения регрессии вычисляется по формуле:
где - элементы обратной матрицы (ХТХ)-1.
Для проверки значимости уравнения регрессии необходимо при заданных значениях ( ) провести несколько экспериментов, чтобы получить некоторое среднее значение функции Y. В этом случае экспериментальный материал представляется, например, в виде табл. 1.
Таблица 1
№ |
Уровни факторов |
Значения функции Y при параллельных исследованиях |
Исследуемое среднее значение | |||
x1 |
x2 |
y1 |
y2 |
y3 | ||
1 |
1,0 |
0,2 |
18,2 |
18,6 |
18,7 |
18,5 |
2 |
2,0 |
0,4 |
21,6 |
23,4 |
23,7 |
22,9 |
3 |
2,5 |
0,3 |
22,0 |
23,0 |
22,5 |
22,5 |
Число параллельных исследований должно быть больше трёх .
Проверка значимости уравнения регрессии проводится по F-критерию. Для этого вычисляется остаточная дисперсия
и -статистика
которая сравнивается с табличным значением при уровне значимости α и числе ступеней свободы
k1 = п - 1, k2 = п – k - 1.
Гипотеза про значимость
уравнения регрессии
Значимость коэффициентов регрессии проверяется по t-критерию.
Статистика сравнивается с табличным значением при уровне значимости α и числе степеней свободы
k1 = п – k - 1.
Наклонная коэффициента регрессии:
где - диагональный элемент матрицы (ХТХ)-1.
Доверительный интервал для
коэффициентов регрессии
где В - значение коэффициента регрессии в генеральной совокупности.
ЗАКЛЮЧЕНИЕ
Эконометрические методы
следует использовать как составную
часть научного инструментария практически
любого технико-экономического исследования.
Оценка точности и стабильности технологических
процессов, разработка адекватных методов
статистического приемочного
Бесспорно совершенно, что
практически любая область
Тесты для самоконтроля
Для нахождения параметров множественного регрессионного уравнения (А), при условии, что известны значения независимых переменных (Xj) и результатирующей переменной (Y) необходимо использовать следующую формулу: