Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:03, реферат
Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.
На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа данных: построение деревьев решений, дискриминантный анализ, построение ассоциаций и последовательномтей.
1)
Можно ли считать, что доходы
и расходы жителей
2) можно ли считать одинаковыми доходы расчете на одного человека в Южном и Сибирском федеральных округах;
3) можно ли считать, что денежные расходы граждан России совпадают с денежными доходами (это важно знать, чтобы убедиться, что неучтенные доходы невелики).
Для того, чтобы проверить нормальность распределения доходов и расходов можно использовать тест Колмогорова-Смирнова.
Для
проверки нулевой гипотезы о нормальности
распределения доходов и
В итоге получаем следующий результат.
Таким
образом, на основании теста Колмогорова-
Перейдем теперь к сравнению средних доходов населения в Южном и Сибирском федеральных округах. Часть таблицы анализируемых исходных данных приведена ниже для Уральского федерального округа.
Переменная People содержит число жителей области (тыс. чел.); R_Numbe – кодирует название федерального округа; Income и Costs – потребительские доходы и расходы в расчете на душу населения; переменная Index представляет собой весовой коэффициент, который учитывает различие областей региона по числу жителей. Значения этой переменной исчисляются следующим образом: определяется полное число жителей в федеральном округе ; значение переменной Index для этого округа определяется по формуле
В этой формуле число областей в федеральном округе .
Переменная Index будет использоваться для того, чтобы при вычислении средних учесть различие в числе проживающих в той или иной области (в качестве весов можно было бы использовать и просто переменную People).
Несмотря на то, что сравнение средних это одна из простейших задач анализа данных, тем не менее, даже эта задача требует достаточно серьезного анализа. Некоторые из вариантов такого анализа приведены в таблице ниже.
Критерии, используемые PASW для оценки статистической значимости выборочных параметров или их различий для двух выборок
В приведенной таблице отражены лишь некоторые из тестов, позволяющие решить поставленную задачу статистической оценки выборочных средних или их различий.
Как уже указывалось, при решении задачи о равенстве выборочных средних нельзя рекомендовать единый, универсальный подход.
Из
предварительного анализа данных следует,
что анализируемые данные не распределены
нормально, и для сравнения средних
Для проверки равенства средних следует сначала взвесить наблюдения (приписать наблюдениям частоты, как это мы делали в курск "Теория статистики"). Сделать это можно выбрав опции Данные/Взвесить наблюдения/ и в появившемся окне выбрать настройки, показанные на рисунке ниже
После
нажатия кнопки OK следует выбрать
закладки Анализ/Сравнение средних/Т-
Переменная R_Number позволяет отобрать области принадлежащие Южному (значение 3) и Сибирскому (значение 6) федеральным округам.
Результаты сравнения средних с помощью T-критерия приведены в таблицах ниже.
Из первой таблицы видно, что средние не равны и их различие значительно больше стандартной ошибки для среднего, которая равна 290,59.
Эти результаты подтверждаются второй таблице, где собственно и приведены результаты проверки гипотезы о равенстве средних. Нулевую гипотезу о равенстве средних при 95 % доверительной вероятности придется отклонить, поскольку вероятность тог, что мы совершим ошибку, считая что средние не равны составляет всего 0,038 (это величина уровня значимости). Поэтому мы с 95% доверительной вероятностью можем утверждать, что средние доходы не равны.
Проведем проверку той же гипотезы о равенстве средних доходов в Южном и сибирском федеральных округах с помощью непараметрического критерия Манна-Уитни.
Для этого следует сначало в редакторе данных отобрать наблюдения для анализа данных (отобрать области Южного и Сибирского федеральных округов Данные/Отобрать наблюдения и выдать команду R_Number=3 OR R_Number=6).
Затем
выбрав опции Анализ/
Результаты анализа представлены на рисунке ниже.
Из приведенного рисунка следует, что с вероятностью превышающей 95% мы можем утверждать, что доходы не равны, а вероятность что они равны менее 0,016 (об этом как раз свидетельствует уровень значимости).
Наконец, ответим на последний поставленный в условии задачи вопрос можно ли считать, что доходы превышают расходы (в анализе теперь участвуют все области России).
Для этого следует сравнить две зависимые выборки (доходы и расходы анализируются у одних и тех же лиц).
Результаты сравнения доходов и расходов приведены в таблицах ниже
Из первой таблицы видно. что доходы превышают расходы. вторая таблица показывает, что существует весьма высокая и значимая корреляция между доходами и расходами. Из третьей таблицы видно, что превышение доходов над расходами является статистически значимым. Эти показатели позволяют утверждать, что нет значительных скрытых доходов у населения.
Выявление взаимосвязи явлений
В
задачах корреляционного
В PASW имеется возможность вычислить коэффициент корреляции Пирсона, Спирмена и Кендалла.
Коэффициент
корреляции по Пирсону следует использовать
в том случае, когда изучаемые
величины измеряются в интервальной
шкале и имеют закон
На практике иногда возникают ситуации,
когда корреляционный анализ обнаруживает
не поддающиеся логической интерпретации
и противоречащие опыту взаимосвязи.
Например, при маркетинговом исследовании была обнаружена логически необъяснимая, но статистически значимая взаимосвязь между количеством членов семьи и среднемесячным доходом на одного члена семьи.
При более тщательном изучении было установлено, что взаимосвязь между количеством членов семьи и среднемесячным доходом на одного члена семьи объясняется третьей переменной – возрастом. Связанными (коррелирующими) являются в действительности пары переменных возраст/уровень дохода и возраст/количество членов семьи.
Для выявления ложных корреляций в
PASW имеется процедура вычисления частных
корреляций. При вычислении частной корреляций
можно устранить влияние третьей переменной
(в приведенном выше примере возраста)
и тем самым вычислить истинный коэффициент
корреляции между изучаемыми переменными.
Пример
Используя данные маркетинговых исследований, содержащиеся в файле Example_2_8.sav (данные примера загружаются по ссылке "Частные корреляции"), выяснить, действительно ли существует взаимосвязь между среднемесячным доходом семьи, приходящемся на одного члена семьи и количеством членов семьи.
Решение
Найдем
коэффициенты парных корреляций для
изучаемых переменных. Используя пункты
меню Анализ/Корреляции/Парные, получаем
таблицу итогов, из которой следует, что
все переменные значимо коррелируют.
Из этой таблицы следует, что корреляции между всеми переменными весьма велики и статистически значимы.
Так корреляция между числом членов семьи и доходом составляет 0,626 и статистически значима, поскольку значимость меньше 0,001 (в таблице приведено значение 0,000 поскольку удержаны лишь три знака после запятой).
Объяснить эту корреляцию какими-либо реально действующими факторами невозможно. В действительности это ложная корреляция.
От возраста зависит число членов семьи и от возраста зависит доход. Таким образом, число членов семьи и доход зависят через переменную возраст. Если влияние этой переменной исключить, то корреляция числа членов семьи и доходов исчезнет.
Для исключения переменной Возраст при анализе корреляции между числом членов семьи и доходом следует выбрать опции Анализ/Корреляции/Частные переменные Доход и Число членов семьи следует поместить в окно Переменные, а Возраст в окно Исключаемые (переменные). Результаты частной корреляции переменных Доход и число членов семьи при исключении влияния переменной Возраст приведены в таблице ниже.
Из этой таблицы видно, что корреляция между переменными Доход и Число членов семьи оказалась весьма слабой (0,277), а главное, статистически незначимой (уровень значимости 0,154). И мы не можем утверждать, например, с 95% доверительной вероятностью, что такая взаимосвязь существует.
Коскольку установление взаимосвязи между явлениями — это весьма важный элемент изучения данных социально-экономической природы, важно всегда иметь ввиду, что корреляции могут быть ложными и выявлять наличие ложных корреляций.
Таблицы сопряженности и критерий хи-квадрат
Таблицы сопряженности (перекрестные распределения) служат для выявления зависимости между двумя и более переменными, которые измерены в номинативной или порядковых шкалах и имеют не очень большое число градаций.
Для того, чтобы понять какой смысл имеют таблицы сопряженности, рассмотрим пример, в котором делается попытка выяснить имеется ли взаимосвязь пола и психического состояния для студентов одного из вузов.
Пример
В
файле Example_2_9.sav содержатся данные о
влиянии различных факторов (специальность,
номер семестра, пол, возраст, успеваемость)
на психическое состояние
Требуется выяснить, зависит ли от пола психическое состояние, которое измерялось с помощью следующих градаций: крайне неустойчивое состояние; неустойчивое; стабильное; очень стабильное.
Решение
Загрузим файл Example_2_9.sav в редактор PASW, и затем с помошью выбора опций меню Анализ/Описательная статистика/Таблицы сопряженности.
В результате откроется диалоговое окно, в котором переменую с меткой Пол нужно перенести в окно Строки, а переменную с меткой Психическое состояние в окно Столбцы.
Далее, на закладке Статистики нужно поставить галочку в окне Хи-квадрат, что обеспечит вывод статистики хи-квадрат, на основании которой и можно сделать вывод о наличии или отсутствии взаимосвязи между качественными признаками. На закладке Ячейки можно поставить дополнительную галочку в окне Ожидаемые частоты.
После щелчка по кнопке OK будет создана таблица, показанная ниже.
Такого рода таблицы мы использовали и в курсе "Теория статистики", только ожидаемые частоты, которые расчитываются, исходя из предположения, что между изучаемыми признаками нет никакой связи, мы рассчитывали вручную. Программа PASW рассчитывает также и эмпирическое значение критерия хи-квадрат
где суммирование производится по ячейкам таблицы, а наблюдаемые и расчетные значения частот, приведенных в таблице.
Численное значение критерия хи-квадрат и его значимость также приводится в окне вывода
Для нас представляет интерес только первая строчка этой таблицы, в которойй приводится численное значение критерия хи-квадрат (22,455) и его статистическая значимость. которая оказалась меньше чем 0,001.
Этот результат позволяет сделать вывод о том, что существует статистически значимая взаимосвязь между полом и психическим состоянием студентов
Регрессионный анализ и прогнозирование
Прогнозирование является важнейшей составной частью принятие управленческих решений. Эффективное управление требует предвиденья. Нельзя управлять, реагируя только на уже случившиеся события. Такой стильуправления неизбежно приведет к запаздыванию в принятии управленческих решений.
Неумение прогнозировать развитие событий — это одна из бед аппарата управления в России. Можно привести многочисленные примеры такого запаздывания с принятием решений как на федеральном. так и на муниципальном уровнях.
Важнейшим методом прогнозирования развития событий является построение регрессионных моделей.
Используемые
в экспертных системах методы для
аналитических предсказаний
Регрессия в этом контексте означает просто функциональную зависимость одной зависимой переменной от некоторого набора других (независимых) переменных , которые часто называют регрессорами, предикторами или объясняющими переменными.
Информация о работе Переходим к изучению материала и проверке знаний