Измерение и прогнозирование в статистических исследованиях

Автор работы: Пользователь скрыл имя, 20 Июня 2013 в 08:36, курсовая работа

Описание работы

Статистика рассматривается как наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определенные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Явления, которые в случае событий массового характера отличаются определенной закономерностью, однако не обнаруживаются на основе единичного наблюдения, называются массовыми явлениями. Сама такая закономерность называется статистической закономерностью.

Содержание работы

ВВЕДЕНИЕ 6
1 Измерение в статистических исследованиях 11
1.1 Типы взаимосвязей. Корреляционный анализ 11
1.2 Расчет коэффициента парной корреляции и его статистическая проверка 14
1.3 О ложной корреляции (влияние «третьего фактора») 15
1.4 Измерение степени тесноты связи между качественными признаками (ранговая корреляция) 16
2 Прогнозирование в статистических исследованях 18
2.1 Регрессионный анализ данных 19
2.2 Множественная регрессия 24
2.3 Проблемы множественной регрессии 26
3 Практическая часть 29
3.1 Уравнение множественной регрессии 29
3.2 Предпосылки МНК 29
3.3 Оценка уравнения регрессии 30
3.4 Матрица парных коэффициентов корреляции 34
3.4.1 Модель регрессии в стандартном масштабе 37
3.5 Анализ параметров уравнения регрессии 39
3.5.1 Показатели тесноты связи факторов с результатом 42
3.5.2 Частные коэффициенты эластичности 42
3.5.3 Стандартизированные частные коэффициенты регрессии 42
3.5.4 Частные коэффициенты корреляции 43
3.5.5 Индекс множественной корреляции (множественный коэффициент корреляции) 44
3.5.6 Коэффициент детерминации 45
3.6 Оценка значения результативного признака при заданных знчениях факторов 45
3.7 Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров) 46
3.8 Проверка общего качества уравнения множественной регресии 47
3.9 Решение задачи с использованием программы (язык С++) 48
ЗАКЛЮЧЕНИЕ 55
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56

Файлы: 1 файл

Диплом-1.docx

— 533.06 Кб (Скачать файл)

от   a - tSa     до   a + tSa.              (20)

 

Один из способов проверки, является ли обнаруженная взаимосвязь между x и y реальной или это просто случайное совпадение, заключается в сравнении β с заданным значением β0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на β и Sb, или если абсолютное значение t=b/ Sb превосходит соответствующее t-значение в t-таблице. Эта проверка эквивалентна проверке значимости коэффициента  корреляции и означает, по сути, то же самое, что и F-тест во множественной регрессии для случая, когда уравнение содержит только одну переменную x.

Для прогнозирования значения нового наблюдения y при условии, что x=x0, неопределенность прогноза оценивают с помощью стандартной ошибки, которая также имеет n - 2 степеней свободы. Это позволяет построить доверительные интервалы и проверить гипотезы для нового наблюдения. Другая формула позволяет вычислить стандартную ошибку для прогнозирования  среднего значения y при заданном x0:

 

             (21)

 

Доверительный интервал для нового наблюдения y при заданном значении x0 имеет следующий вид:

 

                         (22)

 

С регрессионным анализом связаны  определенные проблемы. Если линейная модель неадекватно описывает генеральную совокупность, прогнозы и  статистические выводы будут недостоверны. Анализ диаграммы рассеяния позволяет  выявить такие проблемы, как нелинейность, неравная вариация и наличие  выбросов, что может помочь определить адекватность линейной модели (табл. 3). Процесс экстраполяции, позволяющий сделать прогноз за пределы диапазона значений имеющихся данных, особенно ненадежен, поскольку вы не в состоянии  подстраховать себя путем анализа диаграммы рассеяния.

Даже если линейная модель соответствует  изучаемой генеральной  совокупности, проблемы все равно остаются (табл. 3). Поскольку прогнозы регрессии базируются на данных из прошлого, регрессия не в состоянии идеально прогнозировать  последствия вмешательства, которое изменяет структуру самой системы. В некоторых случаях бывает трудно интерпретировать сдвиг а, хотя этот член и является  неотъемлемой частью уравнения прогноза, построенного методом наименьших квадратов. Обратите особое внимание на выбор переменной, которую вы будете прогнозировать, поскольку линия прогнозирования y на основании x отличается от линии прогнозирования x на основании y (особенно при наличии существенной случайности в данных). Наконец, может существовать и некий третий  фактор, который способен повысить качество прогнозирования y по сравнению с использованием одной лишь переменной x.

 

Таблица 3 - Проблемы анализа данных

Проблема

Описание

Решение

Неравной вариации

Возникает тогда, когда при перемещении  по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Приводит к снижению надежности коэффициента корреляции и регрессионного анализа.

Преобразование данных: логарифмическое

(для работы с денежными суммами);

с помощью  извлечения квадратного корня

(для работы с количеством каких-либо вещей и событий).

Взвешенная регрессия.

Кластеринга

Возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек.

Каждую группу следует анализировать отдельно.

Выбросов

Резко отклоняющееся значение (значения), которое не соответствует взаимосвязи между остальными данными. Могут исказить статистические характеристики двумерной совокупности данных.

Тщательный анализ диаграммы рассеяния


 

Регрессионный анализ должен учитывать данные проблемы и исправлять их. Иначе результаты анализа будут не достоверны.

2.2 Множественная регрессия

 

До сих пор нами рассматривалась  ситуация, когда на зависимую переменную (функцию) воздействовал только один фактор (аргумент). Однако в подавляющем большинстве случаев приходится иметь дело с экспериментальными данными, касающимися влияния более чем одного фактора.

Прогнозирование одной переменной y на основании двух или нескольких x - переменных называется множественной регрессией [12]. В этом случае математическая модель процесса представляется в виде уравнения регрессии с несколькими переменными величинами.

Общий вид уравнения множественной  регрессии обычно стараются представить в форме линейной зависимости:

 

,           (23)

 

где b0 – свободный член (или сдвиг); b1, b2 , …, bk − коэффициенты регрессии.

Существуют два способа определения  качества множественного регрессионного анализа. 

Стандартная ошибка оценки, Se, указывает приблизительную величину ошибок  прогнозирования. Коэффициент детерминации, , указывает, какой процент вариации y объясняется (или представляется) x-переменными. Статистический вывод начинается с проверки общей гипотезы, которую  называют F-тестом. Цель F-теста заключается в том, чтобы выяснить,  объясняют ли x-переменные значимую долю вариации y. Если ваша регрессия не является значимой, говорить больше не о чем. Если же регрессия оказывается значимой, можно приступать к статистическому выводу, используя t-тесты для отдельных коэффициентов регрессии. Доверительные интервалы и проверки  гипотез для отдельных коэффициентов регрессии основываются на  соответствующих им стандартных ошибках. При этом используют  критическое значение из t-таблицы для n - k - 1 степеней свободы.

Статистический вывод базируется на модели множественной линейной  регрессии, в соответствии с которой  наблюдаемое значение y равно взаимосвязи в генеральной совокупности плюс независимые случайные ошибки, которые имеют нормальное распределение:

 

,             (24)

 

что означает «взаимосвязь в генеральной совокупности» + случайность, где ε характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением σ, причем эта случайность является  независимой для каждого из наблюдений. Для всех параметров генеральной  совокупности (α, β1 и β2, ... , βk, σ) имеются соответствующие выборочные, оценки (а, b1 и b2, ... , bк, Se).

В F-тесте используются следующие статистические гипотезы:

 

             (25)

 

              (26)

 

Результат F-теста определяется следующим образом.

Если значение оказывается меньшим, чем критическое значение в таблице, то соответствующая модель является незначимой (следует принять нулевую  гипотезу о том, что x-переменные не позволяют прогнозировать y).

Если значение оказывается большим, чем критическое значение в таблице, то соответствующая модель является значимой (следует отвергнуть нулевую  гипотезу и принять альтернативную гипотезу о том, что x-переменные  действительно позволяют прогнозировать y).

Доверительный интервал для отдельного коэффициента регрессии, βj определяется следующим образом:

 

                         (27)

 

где t берется из t-таблицы для n - k - 1 степеней свободы.

Гипотезы для t-теста j-го коэффициента регрессии имеют следующий вид:

 

              (28)

 

Существуют два подхода к  решению трудной проблемы — принятию решения о том, какие из x-переменных вносят наибольший вклад в уравнение регрессии.

Стандартизованный коэффициент регрессии, , представляет собой  ожидаемое изменение y, вызванное изменением xi и измеренное в единицах  стандартных отклонений y на стандартное отклонение xi, когда все другие x - переменные не изменяются. Если вы не хотите делать поправку на все другие x - переменные (удерживая их без изменения), можно вместо этого сравнивать  абсолютные значения коэффициентов корреляции y с каждым из x.

2.3 Проблемы множественной регрессии

 

Существует несколько потенциальных  проблем, связанных с анализом  множественной регрессии.

  1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (x) оказываются слишком  близки между собой. Отдельные коэффициенты регрессии при этом  оцениваются плохо, поскольку нет достаточной информации, чтобы решить, какая (или какие) из x-переменных собственно объясняют y. Необходимо  исключить из рассмотрения какие-то из переменных или переопределить  какие-то из переменных (возможно, используя деление одних переменных на другие), что позволило бы увеличить различие между переменными.
  2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных независимых x-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. Использование слишком большого  количества x-переменных приведет к снижению качества полученных  результатов, поскольку информация будет понапрасну расходоваться на оценивание ненужных параметров. Если же вы отбросите одну или несколько важных x-переменных, то качество ваших прогнозов также снизится,  поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы включить только те переменные,  необходимость которых не вызывает сомнений, воспользовавшись для этого  списком, предварительно упорядоченным в соответствии с приоритетами. Другое решение заключается в том, чтобы воспользоваться одной из  автоматических процедур, таких как, например, все подмножества или  пошаговая регрессия.
  3. Проблема неправильного выбора модели включает множество различных потенциальных несоответствий между вашей конкретной задачей и моделью линейной множественной регрессии. Анализируя данные, можно выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными, а  некоторые диаграммы рассеяния могут быть нелинейными, модель линейной множественной регрессии и в этих случаях может быть вполне применима. Так называемая диагностическая диаграмма помогает понять,  действительно ли обнаруженная проблема является настолько серьезной, что требует решения. Еще одна существенная проблема возникает в случае, когда  приходится иметь дело с временными рядами. В подобной ситуации можно применять множественный регрессионный анализ, используя для каждой переменной вместо исходных значений процентные изменения значения этой переменной между различными периодами времени.

Диагностическая диаграмма для  множественной регрессии представляет  собой диаграмму рассеяния значений ошибок прогнозирования (остатков) в зависимости от прогнозируемых значений; она позволяет выяснить, действительно ли есть такие проблемы в данных, которые требуют решения. Вмешательство рекомендуется лишь в тех случаях, когда диагностическая диаграмма ясно и  определенно демонстрирует наличие проблемы.

Существуют три способа решения  проблемы нелинейности и/или неравной изменчивости:

  1. преобразовать некоторые или все переменные
  2. ввести  новую переменную
  3. воспользоваться нелинейной регрессией.

Если вы  выполняете преобразование, то каждую группу переменных, которые измеряются в одних и тех же базовых единицах, лучше преобразовывать одинаковым  способом. Если вы преобразовываете лишь некоторые из x-переменных, но не  преобразовываете y, тогда интерпретация результатов анализа множественной  регрессии в основном не меняется. Если же вы используете натуральный логарифм y, тогда интерпретация R2 и тестов на значимость для отдельных коэффициентов регрессии также остается неизменной, отдельные коэффициенты регрессии имеют похожую интерпретацию, a Se нуждается в новой интерпретации.

Эластичность y по отношению к xi представляет собой ожидаемое  процентное изменение y, связанное с увеличением на 1% переменной xi (при этом  другие x-переменные остаются неизменными); эластичность оценивается с помощью коэффициента регрессии из уравнения, в котором применяются натуральные  логарифмы и для y, и   для  xi.

Еще одним способом решения проблемы нелинейности является  использование полиномиальной регрессии для прогнозирования y на основании единственной переменной x вместе с какими-то из ее степеней.

Говорят, что между двумя переменными  наблюдается взаимодействие, если изменение в обеих этих переменных приводит к ожидаемому изменению в y,  которое отличается от суммы изменений в y, вызываемых изменением каждой из этих x-переменных по отдельности. Взаимодействие зачастую моделируется в регрессионном анализе с помощью произведения, образуемого путем умножения одной x-переменной на другую для создания новой x-переменной, которая включается — наряду с другими — в множественную регрессию. Взаимодействие также можно зачастую моделировать, используя преобразования некоторых или всех переменных.

Индикаторная переменная - которую также называют фиктивной  переменной - это количественная переменная, принимающая лишь два возможных  значения (0 или 1); такая переменная используется в качестве независимой  (объясняющей) x-переменной для представления качественных категориальных  данных. Количество индикаторных переменных во множественной регрессии для замены качественной переменной должно быть на единицу меньше количества категорий. Оставшаяся категория определяет базу. Базовая категория  представляется в результирующем уравнении регрессии постоянным членом.

Информация о работе Измерение и прогнозирование в статистических исследованиях