Однофакторный дисперсионный анализ: область применения, технология решения задачи

Автор работы: Пользователь скрыл имя, 16 Ноября 2013 в 18:57, реферат

Описание работы

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.
Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия.

Содержание работы

Введение
1. Дисперсионный анализ
1.1 Основные понятия дисперсионного анализа
1.2 Однофакторный дисперсионный анализ
2. Применение дисперсионного анализа в различных задачах и исследованиях
3.Дисперсионный анализ в контексте статистических методов
3.1Векторные авторегрессии
3.2Факторный анализ
3.3Парная регрессия. Вероятностная природа регрессионных моделей
Заключение
Список использованных источников

Файлы: 1 файл

реферат.doc

— 95.50 Кб (Скачать файл)

В 1970-х годах эти задачи решались с использованием разнообразных методов, которые, если оценить их с современных позиций, были неадекватны по нескольким причинам. Чтобы описать динамику отдельного ряда, достаточно было просто использовать одномерные модели временных рядов, а чтобы описать совместную динамику двух рядов – спектральный анализ. Однако отсутствовал общепринятый язык, пригодный для систематического описания совместных динамических свойств нескольких временных рядов. Экономические прогнозы делались либо с использованием упрощенных моделей авторегрессии — скользящего среднего (ARMA), либо с использованием популярных в то время больших структурных эконометрических моделей. Структурный вывод основывался либо на малых моделях с одним уравнением, либо на больших моделях, идентификация в которых достигалась за счет плохо обоснованных исключающих ограничений, и которые обычно не включали ожидания. Анализ политики на основе структурных моделей зависел от этих идентифицирующих предположений.

Наконец, рост цен в 1970-е  годы рассматривался многими как серьезная неудача больших моделей, которые в то время использовались для выработки политических рекомендаций. То есть это было подходящее время для появления новой макроэконометрической конструкции, которая могла бы решить эти многочисленные проблемы.

В 1980 году была создана  такая конструкция – векторные  авторегрессии (VAR). На первый взгляд, VAR – не более, чем обобщение одномерной авторегрессии на многомерный случай, и каждое уравнение в VAR – не более, чем обычная регрессия по методу наименьших квадратов одной переменной на запаздывающие значения себя и других переменных в VAR. Но этот вроде бы простой инструмент дал возможность систематически и внутренне согласованно уловить богатую динамику многомерных временных рядов, а статистический инструментарий, который сопутствует VAR, оказался удобным и, что очень важно, его было легко интерпретировать.

Выделяют три различных VAR-модели:

- приведенная форма  VAR;

- рекурсивная VAR;

- структурная VAR.

Все три являются динамическими  линейными моделями, которые связывают  текущие и прошлые значения вектора Yt n-мерного временного ряда. Приведенная  форма и рекурсивные VAR – это статистические модели, которые не используют никакие экономические соображения за исключением выбора переменных. Эти VAR используются для описания данных и прогноза. Структурная VAR включает ограничения, полученные из макроэкономической теории, и эта VAR используется для структурного вывода и анализа политики.

Приведенная форма VAR выражает Yt в виде распределенного лага прошлых  значений плюс серийно некоррелированный  член ошибки, то есть обобщает одномерную авторегрессию на случай векторов. Математически приведенная форма модели VAR – это система n уравнений, которые можно записать в матричной форме следующим образом: 

           (17)

l вектор констант;´ - это naгде

n матрицы коэффициентов;´ A1, A2, ..., Ap – это n

l вектор серийно некоррелированных  ошибок, о которых предполагается, что они имеют среднее ноль и матрицу ковариаций´t, - это ne  .

t, в (17) – это неожиданная  динамика в Yt, остающаяся после учета линейного распределенного лага прошлых значений.eОшибки

Оценить параметры приведенной  формы VAR легко. Каждое из уравнений  содержит одни и те же регрессоры (Yt–1,...,Yt–p), и нет взаимных ограничений между  уравнениями. Таким образом, эффективная оценка (метод максимального правдоподобия с полной информацией) упрощается до обычного МНК, примененного к каждому из уравнений. Матрицу ковариаций ошибок   можно состоятельно оценить выборочной ковариационной матрицей полученных из МНК остатков.

Единственная тонкость – определить длину лага p, но это можно сделать, используя информационный критерий, такой как AIC или BIC.

На уровне матричных  уравнений рекурсивная и структурная VAR выглядят одинаково. Эти две модели VAR учитывают в явном виде одновременные взаимодействия между элементами Yt, что сводится к добавлению одновременного члена к правой части уравнения (17). Соответственно, рекурсивная и структурная VAR обе представляются в следующем общем виде:                              

                         (18)

- вектор констант;bгде  

B0,..., Bp - матрицы;

t — ошибки.h 

Наличие в уравнении  матрицы B0 означает возможность одновременного взаимодействия между n переменными; то есть B0 позволяет сделать так, чтобы  эти переменные, относящиеся к  одному моменту времени, определялись совместно.

Рекурсивную VAR можно  оценить двумя способами. Рекурсивная  структура дает набор рекурсивных  уравнений, которые можно оценить  с помощью МНК. Эквивалентный  способ оценивания заключается в  том, что уравнения приведенной  формы (17), рассматриваемые как система, умножаются слева на нижнюю треугольную матрицу.

Метод оценивания структурной VAR зависит от того, как именно идентифицирована B0. Подход с частичной информацией  влечет использование методов оценивания для отдельного уравнения, таких как двухшаговый метод наименьших квадратов. Подход с полной информацией влечет использование методов оценивания для нескольких уравнений, таких как трехшаговый метод наименьших квадратов.

Необходимо помнить  о множественности различных  типов VAR. Приведенная форма VAR единственна. Данному порядку переменных в Yt соответствует единственная рекурсивная VAR, но всего имеется n! таких порядков, т.е. n! различных рекурсивных VAR. Количество структурных VAR – то есть наборов предположений, которые идентифицируют одновременные взаимосвязи между переменными, - ограничено только изобретательностью исследователя.

Поскольку матрицы оцененных  коэффициентов VAR затруднительно интерпретировать непосредственно, результаты оценивания VAR обычно представляют некоторыми функциями этих матриц. К таким статистикам разложения ошибки прогноза.

Разложения дисперсии  ошибки прогноза вычисляются в основном для рекурсивных или структурных  систем. Такое разложение дисперсии  показывает, насколько ошибка в j-м  уравнении важна для объяснения неожиданных изменений i-й переменной. Когда ошибки VAR некоррелированы по уравнениям, дисперсию ошибки прогноза на h периодов вперед можно записать как сумму компонентов, являющихся результатом каждой из этих ошибок /17/.

3.2 Факторный  анализ

В современной статистике под факторным анализом понимают совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволяют выявлять латентные обобщающие характеристики организационной структуры и  механизма развития изучаемых явлений и процессов.

Понятие латентности  в определении ключевое. Оно означает неявность характеристик, раскрываемых при помощи методов факторного анализа. Вначале имеется дело с набором  элементарных признаков Xj, их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых факторов. Последние устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Естественно, что коррелировать могут не только тривиальные признаки Xj, но и сами наблюдаемые объекты Ni поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным.

Если объекты характеризуются  достаточно большим числом элементарных признаков (m > 3), то логично и другое предположение - о существовании плотных скоплений точек (признаков) в пространстве n объектов. При этом новые оси обобщают уже не признаки Xj, а объекты ni, соответственно и латентные факторы Fr будут распознаны по составу наблюдаемых объектов:

Fr = c1n1 + c2n2 + ... + cNnN,

где ci - вес объекта ni в  факторе Fr.

В зависимости от того, какой из рассмотренных выше тип  корреляционной связи - элементарных признаков  или наблюдаемых объектов - исследуется  в факторном анализе, различают R и Q - технические приемы обработки данных.

Название R-техники носит  объемный анализ данных по m признакам, в результате него  получают  r  линейных  комбинаций  (групп) признаков: Fr=f(Xj), (r=1..m). Анализ по данным о близости (связи) n наблюдаемых объектов называется Q-техникой и позволяет определять r линейных комбинаций (групп) объектов: F=f(ni), (i = l .. N).

В  настоящее  время на практике более 90% задач решается при помощи R-техники.

Набор методов факторного анализа в настоящее время достаточно велик, насчитывает десятки различных подходов и приемов обработки данных. Чтобы в исследованиях ориентироваться на правильный выбор методов, необходимо представлять их особенности. Разделим все методы факторного анализа на несколько классификационных групп:

- Метод главных компонент.  Строго говоря, его не относят  к факторному анализу, хотя  он имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных  процедур одновременно получают  все главные компоненты  и  их число первоначально равно числу элементарных признаков. Во-вторых, постулируется возможность полного разложения дисперсии элементарных признаков, другими словами, ее полное объяснение через латентные факторы (обобщенные признаки).

- Методы факторного анализа. Дисперсия элементарных признаков здесь объясняется не в полном объеме, признается, что часть дисперсии остается нераспознанной как характерность. Факторы обычно выделяются последовательно: первый, объясняющий наибольшую долю вариации элементарных признаков, затем второй, объясняющий меньшую, вторую после первого латентного фактора часть дисперсии, третий и т.д. Процесс выделения факторов может быть прерван на любом шаге, если принято решение о достаточности доли объясненной дисперсии элементарных признаков или с учетом интерпретируемости латентных факторов.

Методы факторного анализа  целесообразно разделить дополнительно  на два класса: упрощенные и современные  аппроксимирующие методы. 
Простые методы факторного анализа в основном связаны с начальными теоретическими разработками. Они имеют ограниченные возможности в выделении латентных факторов и аппроксимации факторных решений. К ним относятся:

- однофакторная модель. Она позволяет выделить только  один генеральный латентный и  один характерный факторы. Для возможно существующих других латентных факторов делается предположение об их незначимости;

- бифакторная модель. Допускает влияние на вариацию  элементарных признаков не одного, а нескольких латентных факторов (обычно двух) и одного характерного  фактора;

- центроидный метод.  В нем корреляции между переменными  рассматриваются как пучок векторов, а латентный фактор геометрически  представляется как уравновешивающий  вектор, проходящий через центр  этого пучка. : Метод позволяет  выделять несколько латентных и характерные факторы, впервые появляется возможность соотносить факторное решение с исходными данными, т.е. в простейшем виде решать задачу аппроксимации.

Современные аппроксимирующие методы часто предполагают, что первое, приближенное решение уже найдено каким либо из способов, последующими шагами это решение оптимизируется. Методы отличаются сложностью вычислений. К этим методам относятся:

- групповой метод.  Решение базируется на предварительно  отобранных каким-либо образом  группах элементарных признаков;

- метод главных факторов. Наиболее близок методу главных  компонент, отличие заключается  в предположении о существовании  характерностей;

- метод   максимального   правдоподобия,   минимальных   остатков,         а-факторного анализа канонического факторного анализа, все оптимизирующие.

Эти методы позволяют  последовательно улучшить предварительно найденные решения на основе использования  статистических приемов оценивания случайной величины или статистических критериев, предполагают большой объем  трудоемких вычислений. Наиболее перспективным и удобным для работы в этой группе признается метод максимального правдоподобия.

Основной задачей, которую  решают разнообразными методами факторного анализа, включая и метод главных  компонент, является сжатие информации, переход от множества значений по m элементарным признакам с объемом информации n х m к ограниченному множеству элементов матрицы факторного отображения (m х r) или матрицы значений латентных факторов для каждого наблюдаемого объекта размерностью n х r, причем обычно r < m. 
Методы факторного анализа позволяют также визуализировать структуру изучаемых явлений и процессов, а это значит определять их состояние и прогнозировать развитие. Наконец, данные факторного анализа дают основания для идентификации объекта, т.е. решения задачи распознавания образа. 
Методы факторного анализа обладают свойствами, весьма привлекательными для их использования в составе других статистических методов, наиболее часто в корреляционно-регрессионном анализе, кластерном анализе, многомерном шкалировании и др. /18/.

3.3 Парная регрессия.  Вероятностная природа регрессионных  моделей

Если рассмотреть задачу анализа расходов на питание в  группах с одинаковыми доходами, например в $10.000(x), то это детерминированная  величина. А вот Y - доля этих денег, затрачиваемая на питание - случайна и может меняться от года к году. Поэтому для каждого i-го индивида:

где εi - случайная ошибка;  

α и β - константы (теоретически), хотя могут меняться от модели к  модели.

Предпосылки для парной регрессии:

Информация о работе Однофакторный дисперсионный анализ: область применения, технология решения задачи