Пакет SPSS

Автор работы: Пользователь скрыл имя, 21 Апреля 2013 в 08:32, курсовая работа

Описание работы

Целью данной курсовой работы является описание функциональных возможностей системы SPSS и способов решения средствами этой системы задачи прогнозирования.
Задачи:
1. рассмотреть историю возникновения SPSS;
2. выяснить, какие модули составляют основу SPSS;
3. раскрыть функциональные возможности данного программного комплекса

Файлы: 1 файл

SPSS КУРСОВАЯ.doc

— 155.00 Кб (Скачать файл)

Еще пример: ответ на вопрос о доходах от личного подсобного хозяйства может представлять определенную сумму, быть ответом «не имею подсобного хозяйства» или ответом «не знаю» − здесь значения только частично являются количественными и упорядоченными. При кодировании значений таких значений используются специального вида коды, которые в принципе не могут встретиться в данных, например в RLMS «затрудняюсь ответить», «отказ от ответа» и «нет ответа» в вопросе о весе респондента кодируются кодами 997, 998 и 999 соответственно.

Еще более сложны данные по так называемым неальтернативным (многозначным) вопросам. При создании матрицы исследования этот тип вопроса  обозначается как Ordinal, в отличие от альтернативных вопросов (Nominal), и вопросов, предусматривающих ответы в виде точных чисел (Scale) (например, указывается точный возраст или вес человека). Часто встречаются вопросы: «Какие варианты ответов, предлагаемых анкетой, Вам кажутся разумными?». В анкете на такой вопрос предлагается несколько ответов. В этих случаях признаки принято называть неальтернативными или многозначными. Неальтернативный признак можно кодировать одним из двух способов:

  1. Для каждой подсказки заводится переменная, которая соответствует столбцу матрицы и кодируется с помощью 0 и 1. В частности, для ответов на четвертый вопрос анкеты примера 1 отводится 5 столбцов матрицы данных, они заполняются нулями и единицами. Нередко вместо кодов 0 и 1 используются другие коды, тогда в программах получения таблиц по неальтернативным вопросам нужно специально указывать код, соответствующей ответу «Да».

Каждый столбец данных должен быть поименован, при этом имеются  короткие имена для удобства задания  команд и длинные имена, удобные  для выдачи результатов расчетов. В приведенной анкете можем обозначить признаки следующим образом: v1, v2, v3s1, v3s2, v3s3, v4d1, v4d2, v4d3, v4d4, v4d5 или: sex, age, problem1,…,problem3, compl1,… compl5.

Меткой переменной может быть и непосредственная формулировка вопроса и переработанный текст вопроса. Например, «Назовите, пожалуйста, Ваш пол» или «Пол».

Метки значений − это текстовая расшифровка кодов значений переменных (для пола: 1 − «мужской», 2 − «женский»).

Коды неопределенных значений. Нередко необходимо исключить из анализа коды переменных, соответствующих неопределенным значениям. Эти коды должны быть заданы заранее.

СТАТИСТИЧЕСКИЙ  ПАКЕТ ДЛЯ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ.

Структура пакета. Пакет включает в себя команды определения данных, преобразования данных, команды выбора объектов. В нем реализованы следующие методы статистической обработки информации:

- суммарные статистики  по отдельным переменным;

- частоты, суммарные  статистики и графики для произвольного числа переменных;

- построение N-мерных  таблиц сопряженности и получение  мер связи;

- средние, стандартные  отклонения и суммы по группам;

- дисперсионный анализ  и множественные сравнения;

- корреляционный анализ;

- дискриминантный анализ;

- однофакторный дисперсионный  анализ;

- общая линейная модель дисперсионного анализа (GLM);

- факторный анализ;

- кластерный анализ;

- иерархический кластерный  анализ;

- иерархический лог-линейный  анализ;

- многомерный дисперсионный  анализ;

- непараметрические тесты;

- множественная регрессия;

- методы оптимального шкалирования и т.д.

Кроме того, пакет позволяет получать разнообразные графики − столбиковые и круговые, ящичковые диаграммы, поля рассеяния и гистограммы и др.

Управление работой  пакета происходит в основном через меню, при этом соблюдаются стандарты системы WINDOWS. Каждое окно имеет свое меню, многие команды меню доступны из различных окон.

ОСНОВНЫЕ  КОМАНДЫ МЕНЮ SPSS.

FILE. Обеспечивает доступ к файлам данных, к выходным файлам и программам преобразования данных. С файлами данных связываются окна. Если текущее окно соответствует данным наблюдений, то команда FILE обслуживает сохранение и замену данных. Если окно содержит файл синтаксиса (SYNTAX) или выдачи результатов счета (OUTPUT), то обеспечивается обработка файла синтаксиса или выдачи.

EDIT. Обеспечивает редактирование командных файлов, выходных файлов и файлов данных статистических наблюдений и др.

DATA. Обеспечивает операции над данными − сортировку, слияние различных файлов данных, агрегирование, организацию подвыборки из данных. Эта команда имеется только в меню окна редактора данных.

TRANSFORM. Обеспечивает преобразование данных. Эта команда также имеется только в меню окна редактора данных.

STATISTICS. Команда обеспечивает доступ и реализацию методов анализа данных; начиная с 9-й версии SPSS она заменена на команду.

ANALISIS.

GRAPHS. Графическое представление данных.

UTILITIES. Обслуживающие программы.

WINDOOW. Обеспечивает переключение окон.

HELP. Содержит справочную информацию.

Кроме того, при работе с графиками и мобильными таблицами (PIVOT TABLES) появляются меню специального назначения.

Приведенные команды  − далеко не полное описание меню, а лишь наиболее используемая его часть.

Процедуры статистического  анализа и описания распределений снабжены обычно таким множеством подкоманд, задающих разнообразные режимы работы и параметры, что текст подсказки по соответствующим командам напоминает новогодние елки, увешанные игрушками. Поэтому команды для выполнения этих процедур удобнее формировать в диалоговых окнах, которые позволяют успешно их формировать практически без знания синтаксиса команд. Ниже приведены образцы применения команд преимущественно с указанием лишь основных параметров. Как мы уже отметили, потребность в пакетном режиме использования статистических процедур возникает в том случае, когда приходится многократно повторять расчет, корректируя лишь параметры.

Для первичного анализа  данных обычно достаточно процедур реализуемых  следующими командами:

FREQUNCIES - получение распределений;

DESCRIPTIVES - одномерные описательные статистики;

EXPLORE (EXAMINE) - одномерные описательные статистики в группах объектов;

CROSSTABS - таблицы сопряженности;

MEANS - средние;

MULTIPLE RESPONSE, GENERAL TABLE - таблицы для неальтернативных признаков.

FREQUENCIES - получение  распределений

Эта процедура предназначена  для получения одномерных распределений  переменных. Процедура FREQUENCIES позволяет получить самые основные статистические характеристики случайной переменной: перечень значений, принимаемых переменной, и частотное распределение (в числовом виде и в виде процентов), т.е. сколько раз переменная принимала каждое из этих значений. Частотное распределение в зависимости от желания пользователя представляется в виде таблицы и (или) графика (по умолчанию выдается таблица). В процедуре FREQUENCIES также предусмотрен расчет описательных статистик.

РЕГРЕССИОННЫЙ АНАЛИЗ

Задача регрессионного анализа состоит в построении модели, позволяющей по значениям  независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии.

Классическая  линейная модель регрессионного анализа

Линейная модель связывает  значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой: Y=B0+B1X1+…+BpXp+e где e − случайная ошибка. Здесь Xk означает не «икс в степени k», а переменная X с индексом k.

Традиционные названия «зависимая» для Y и «независимые» для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию.

Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, получены при предположении, что регрессионная ошибка распределена нормально с параметрами N(0,σ2), ошибки для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения. Такое на практике получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Теория регрессионных уравнений со случайными независимыми переменными сложнее, но известно, что при большом числе наблюдений использование метода, разработанного для неслучайных X, корректно.

Для получения оценок коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии. Решение задачи сводится к решению системы линейных уравнений относительно. На основании оценок регрессионных коэффициентов рассчитываются значения Y.

Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.

Логистическая регрессия

Как правило, от социологов ожидают предсказания событий, анализ связи событий с теми или иными  факторами. Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, например, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, что Y - непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp. Иначе эта связь может быть выражена в виде зависимости P{Y=1|X}=f(X)

Логистическая регрессия  выражает эту связь в виде формулы, где Z=B0+B1X1+…+BpXp.

Название «логистическая регрессия» происходит от названия логистического распределения, имеющего функцию распределения. Таким образом, модель, представленная этим видом регрессии, по сути является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных.

Исследование структуры данных

Конечно, собирая данные, исследователь руководствуется  определенными гипотезами. Информация относится к избранным предмету и теме исследования, но нередко  она представляет собой сырой  материал, в котором необходимо изучить  структуру показателей, характеризующих объекты, а также выявить однородные группы объектов. Полезно представить эту информацию в геометрическом пространстве, лаконично отразить ее особенности в классификации объектов и переменных. Такая работа создает предпосылки к созданию типологий объектов и формированию «социального пространства», в котором обозначены расстояния между объектами наблюдения, что позволяет наглядно представить свойства объектов.

Факторный анализ

Идея метода состоит  в сжатии матрицы признаков в  матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица. В основе моделей факторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скрытых (латентных) факторов. Хотя такую идею можно приписать многим методам анализа данных, обычно под моделью факторного анализа понимают представление исходных переменных в виде линейной комбинации факторов.

Х1 Х2.....Хn F1...Fm

┌──┬──┬──┬──┬──┐ ┌──┬──┬──┐

│ │ │ │ │ │ │ │  │ │ 

│ │ │ │ │ │ │ │ │ │ 

└──┴──┴──┴──┴──┘ └──┴──┴──┘




 

 

 

 

 

 

Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) можно представить Х. В этой модели «скрытые» переменные Fk называются общими факторами, а переменные Ui специфическими факторами («специфический» − это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения Ui встречаются также слова «характерный», «уникальный»). Значения aik называются факторными нагрузками.

Обычно (хотя и не всегда) предполагается, что Xi стандартизованы (=1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.

В этих условиях факторные  нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора, где величина называется общностью, − специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность − часть необъясненной факторами дисперсии.

Информация о работе Пакет SPSS