Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:03, реферат
Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.
На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа данных: построение деревьев решений, дискриминантный анализ, построение ассоциаций и последовательномтей.
Регрессионные методы применяются, главным образом, для обнаружения функциональных зависимостей в данных.
Пусть имеется набор значений результативной переменной для случаев ( ) и набор значений объясняющих переменных (предполагается, что значение результативной переменной для каждого случая может быть объяснено действием факторов ).
Задача регрессионного анализа состоит в нахождении некоторой теоретической функции , значение которой было бы наиболее близко известным значениям переменной для факторов .
При создании регрессионных моделей наиболее часто предполагается, что уравнение связи зависимой и независимой переменной определяется линейной функцией. Сведнние задачи нелинейной регресии к линейной регрессионной модели называется процедурой линеаризации и осуществляется, как правило, простой заменой переменных (как это делается практически обсуждалось в курсе "Теория статистики").
Применение пакета PASW (Predictive Analytics Software) облегчает процедуру построения регрессионных уравнений, поскольку здесь проблемы применимости регрессионного анализа для изучаемого набора данных, оценки статистической значимости полученной модели рассчитываются программой автоматически. Нужно лишь уметь интерпретировать полученные результаты и сделать на их основе правильный вывод.
Здесь как раз пригодятся знания полученные в курсе "Теория Статистики" Можно не помнить алгоритм проверки той или иной статистической гипотезы, но нужно знать для каких целей она проверяется и как нужно сделать правильный вывод из полученных результатов.
Учитывая, что в методическом руководстве для проведения практических занятий достаточно подробно описана вся процедура построения линейной регрессионной модели в PASW, здесь ограничимся рассмотрением всего лишь одного примера и подробно обсудим результаты, которые генерирует программа PASW.
Пример
Накал страстей в период президентских выборов в США приковывает внимание прессы и населения многих стран мира.
Между тем многофакторный регрессионный анализ позволяет с высокой надежностью предсказать результат этих выборов. В файле Example_4_4_10. sav содержатся данные о проценте голосов, набранных правящей партией на президентских выборах с 1916 по 2000 г. (результативный признак) и данные о некоторых социально-экономических показателях США в год выборов (факторные переменные).
В качестве факторов используются следующие независимые переменные:
- процент роста ВНП за первые девять месяцев
в год выборов;
- темп инфляции за первые девять месяцев
в год выборов;
- число кварталов за последние четыре
года, когда рост ВНП превышал 3,2 %;
- число сроков подряд, в течение которых
правящая партия находится у власти;
- проходят ли выборы в период, когда страна
ведет войну (учитывались только глобальные
войны);
- выдвигается ли действующий президент
на следующий срок.
Большая часть факторных переменных
относится к номинативной шкале
и кодируется с помощью некоторых
числовых значений.
Способ кодирования можно посмотреть непосредственно в файле Example_4_4_10. sav, если в окне редактора PASW зайти на закладку Переменные.
а) Используя данные за 1916 – 2000 гг., постройте
регрессионное уравнение, позволяющее
предсказать число голосов, отданных
за представителя правящей партии в
2004 г.
б) Проверьте статистическую значимость
регрессионного уравнения и регрессионных
коэффициентов.
в) Получите интервальную оценку числа
голосов, отданных за правящую партию.
С какой доверительной
Для решения этой задачи используем команды меню Анализ/Регрессия/Линейная и в открывшемся окне выполняем настройки, показанные на рисунке.
Метод исключения, который мы выбрали здесь для проведения анализа, вначале включает все переменные в анализ, а затем пытается исключить каждую переменную из анализа. Далее проверяется гипотеза, о том, что при исключении переменной F-статистика не изменяется. Если эта гипотеза принимается при уровне значимости 0,1 (это значение установлено по умолчанию, но его можно менять), то переменная исключается из модели, а если гипотеза отклоняется, то переменная остается в модели.
Управлять процедурой включения исключения переменных можно на закладке Параметры (см. рис. ниже).
Для того, чтобы правильно оценить качество модели на закладке Статистики следует произвести настройки, показанные на рисунке ниже.
Одним из условий применимости регрессионного анализа является гомоскедастичность входного набора данных. Для проверки гомоскедастичности можно использовать специальные тесты (Левене или Голдфелда-Квандта) или определить наличие гомоскедастичности чисто визуально. Гомоскедастичность данных — это независимость ошибок от номера точки наблюдения (дисперсия ошибок должна быть примерно одинаковой в начале и конце таблицы данных).
Для визуальной проверки гомоскедастичности набора данных строится график, где по оси абсцисс откладывается стандартное отклонение для предсказанных значений ZPRED, а по оси ординат стандартизированные остатки (ошибки) ZRESID.
Если на полученном графике разброс точек примерно одинаков и не просматривается явная тенденция к увеличению или уменьшению этого разброса, то есть основания считать, что набор данных гомоскедастичен.
"Заказать
появление такого графика
Галочка в окне Гистограмма позволяет вывести гистограмму остатков (ошибок и нормальную кривую, наложенную на эту гистограмму (в идеале ошибки, если они случайны, должны быть распределены по нормальному закону).
Наконец, на закладке Сохранить следут поставить галочки в окнах Предсказанные значения/Нестандартизованные и Интервалы предсказаний/Отдельное значение. Эта настройка позволит получить в редакторе данных три новых переменных: PRE_1 — предсказанный моделью процент голосов и LICI_1, UICI_1, предсталяющие собой нижнюю и верхнюю границу интервала, в котором с 95% доверительной вероятностью будет находиться результат предсказаний модели (собственно только этот интервал и может рассматриваться при практическом использовании модели).
Перейдем теперь к анализу результатов работы программы.
В таблице Введенные или удаленные переменные показано, что удаленных переменных нет, все исходные переменные включены в анализ.
В таблице Сводка по модели представлены такие общие характеристики модели как фактор детерминации, скорректированный фактор детерминации, статистика Дарбина -Уотсона (в PASW - статистика Дурбина-Уотсона)
Буквой H вэтой таблице обозначен коэффициент корреляции, представляющий собой корень квадратные из фактора детерминации R-квадрат. Близкое к единице значение скорректированного фактора R-квадрат, равное 0, 908 говорит о хорошем качестве модели.
Значение статистики Дарбина-Уотсона, равное 2,665 говорит о том, что автокорреляции в данных нет т. е. данные итогов голосования в текущем временном периоде никак не связаны с данными выборов в предыдущие периоды.
Несложные вычисления показывают, что статистика Дарбина – Уотсона просто связана с коэффициентом автокорреляции первого порядка: где r – коэффициент автокорреляции первого порядка для остатков регрессионной модели. Если корреляции нет, то d = 2. Если корреляция полная, то d = 0. Если корреляция полная и отрицательная, то d = 4.
Следовательно, если бы статистика Дарбина-Уотсона оказалась близкой к нулю, или близкой к значению, равному четырем, то это бы свидетельствовало о положительной или отрицательной автокорреляции. В нашем случае этот коэффициент близок к двум и следовательно автокорреляция отсутствует.
Следующая таблица выводит данные дисперсионного анализа (эти результаты выводит и функция ЛИНЕЙН при построении линейной регрессионной модели в Excel).
Здесь величина 959, 389 - это сумма квадратов отклонений, объясненная регрессионной моделью, величина 62,877 - это сумма квадратов отклонений, которая регрессионной моделью не объясняется.
Величина Щ, равная 30,517 (здесь явная ошибка; эта величина должна быть обозначена буквой F) — это F- статистика Фишера, большое значение которой указывает на то, что регрессионная модель в целом статистически значима (провереяется нулевая гипотеза о том, что регрессионные коэффициенты на самом деле ничего не объясняют и эта гипотеза отвергается).
Наиболее важной является таблица, в которой приводятся значения регрессионных коэффициентов.
Как видно из таблицы, все коэффициенты регрессионной модели (их значения приведены в столбце, озаглавленном буквой В) статистически значимы (значимость меньше 0,05 за исключением одного коэффициента при переменной Есть ли военные действия в год выборов, который статистически значим лишь при уровне значимости 0,055.
В итоге процент голосов, набранный кандидатом на выборах (если пользоваться обозначениями, приведенными в условии задачи) определяется формулой
Пользуясь этой формулой не представляет труда предсказать результат очередных выборов, однако следует иметь ввиду, нужно проводить интервальную оценку, например, с 95% доверительной вероятностью, а в этом случае предсказания модели не всегда будут однозначными.
Наконец, проанализируем график зависимости стандартизированных остатков от стандартизированных предсказаний, показанную на рисунке ниже.
Как видно из рисунка, нет заметной тенденции к увеличению или уменьшения разброса точек по оси ординат при изменении координаты по оси абсцисс. Поэтому, чисо визуально, можем считать, что набор данных гомоскедастичен и мы имеем право строить регрессионную модель, используя метод наименьших квадратов.
Можете ли вы ответить на приведенные ниже вопросы?
1. В чем различие подходов при использовании
универсальных и специализированных пакетов
анализа данных?
2. Всегда ли возможно полностью доверять результатам анализа данных, выполненным с помощью специализированных пакетов? Перечислите проблемы, с которыми исследователь может столкнуться, например, при выполнении регрессионного анализа.
3. В чем сходство и различие задач классификации и кластеризации?
4. С помощью каких методов анализа можно выявить правила, содержащиеся в данных?
5. Дайте определение понятий «ассоциативное правило», «транзакция», «поддержка и достоверность ассоциативного правила».
6. Приведите примеры задач государственного и муниципального управления, в которых широко применяются технологии Data Mining.
7. Какие типы шкал используются для анализа данных в SPSS?
8. Приведите примеры данных, для измерения которых используется номинативная, порядковая и интервальная шкалы.
9. Перечислите основные операции, которые допускают данные, измеренные в номинативной, порядковой и интервальной шкалах.
10. Какие существую способы импорта данных из программы Excel в SPSS?
11. В чем состоит сущность выборочного метода исследования?
12. Перечислите основные виды распределений, которые широко используются для построения статистических критериев в SPSS.
13 . Как можно проверить предположение о нормальности распределения во входном наборе данных?
14. Какими способами можно установить взаимосвязь данных? Какие методы оценки корреляций имеются в SPSS?
15. В чем состоит смысл таблиц сопряженности и как на их основе можно установить взаимосвязь признаков?
16. В чем заключается смысл t -критерия Стьюдента, F-критерия Фишера и критерия хи-квадрат Пирсона?
17. В каких случаях для сравнения выборочных средних используется t-критерия Стьюдента?
18. Чем параметрический критерий отличается от непараметрического? Приведите примеры параметрических и непараметрических критериев.
19. Перечислите основные непараметрические критерии и опишите методологию проверки статистических гипотез о параметрах выборочных показателей на их основе.
21. Что понимается под моделью множественной линейной регрессии?
22. Перечислите основные посылки МНК.
23. Какой смысл имеют коэффициенты регрессионного уравнения?
24. Какие преимущества имеет стандартизованная модель регрессии?
25. В чем смысл коэффициента детерминации? Какие значения он может принимать?
26. Чем нормированный коэффициент детерминации отличается от обычного?
27. Если число объясняющих переменных увеличилось, то обязательно ли увеличится и значение нормированного коэффициента детерминации? А как будет вести себя нескорректированный фактор детерминации?
28. Какой смысл имеет коэффициент толерантности переменной, и для каких целей он используется в регрессионном анализе?
29. Как производится анализ статистической значимости регрессионного уравнения в целом? Какая нулевая гипотеза при этом выдвигается?
30. Какая статистика используется для оценки статистической значимости регрессионных коэффициентов? Какая гипотеза при этом проверяется?
31. Как ставится задача об интервальной оценке регрессионных коэффициентов?
32. Какие формы уравнений регрессии могут быть сведены к линейной модели?
33. Каким способом можно выявить автокорреляцию во входном наборе данных?
34. Как убедиться в гомоскедастичности входного набора данных?
Информация о работе Переходим к изучению материала и проверке знаний