Физико-математический факультет
КУРСОВАЯ РАБОТА
по дисциплине: «Методы прикладной
статистики для социологов»
на тему:
«Анализ таблиц сопряженности»
2014
Оглавление
ВВЕДЕНИЕ
Способы обработки числовой
информации изучены достаточно хорошо
и известны практически всем исследователям,
в то же время проблеме обработки данных,
имеющих нечисловую, а качественную природу,
уделяется достаточно мало внимания. Это
является первым моментом актуальности
работы. Следующий фактор, отражающий
актуальность, состоит в том, что основная
задача исследователя, занимающегося
обработкой данных, сводится к выявлению
закономерностей из случайностей, а выявление
закономерности, то есть связи между переменными,
и последующей оценки ее силы является
актуальной задачей прикладной статистики.
При обработке качественной
информации особую роль играют категоризированные
переменные, то есть те, которые могут
принимать только два значения. Для таких
переменных существует достаточно много
способов выявления связи с помощью аппарата
таблиц сопряженности как средства представления
совместного распределения двух переменных,
предназначенного для исследования связи
между ними, но, к сожалению, среди них
нет универсального. В связи с этим в зависимости
от значений частот приходится использовать
тот или иной критерий проверки связи,
то есть существует проблема анализа всех
способов выявления связи между категориальными
переменными и модификации некоторых
из них.
Объектом исследования выступает
таблица сопряженности как наиболее универсальное
средство изучения статистических связей,
так как в ней могут быть представлены
переменные с любым уровнем измерения,
как абсолютные, так и относительные частоты
(в долях или процентах). Таблицы сопряженности
позволяют измерить связи между кросстабулированными
переменными. Относительные частоты могут
рассчитываться по отношению к маргинальной
частоте по строке, к маргинальной частоте
по столбцу, к объему выборки.
Предметом исследования является
анализ таблиц сопряжённости. Основным
средством анализа выступает логарифмически-линейная
модель. Если учтены все важные признаки,
то естественно предположить, что частота
в некоторой ячейке пропорциональна произведению
частот самих признаков, образующих эту
ячейку. Тогда получится модель, линейная
относительно логарифма частоты. Именно
такой подход позволяет использовать
аналитические данные для проверки гипотезы
о наличии связи между двумя признаками,
а также для измерения тесноты связи.
Полученные результаты могут
иметь компьютерную и аналитическую реализацию,
когда особое внимание уделяется процессу
обработки информации через практическое
внедрение кросстабуляции и аппарата
таблиц сопряженности.
Целью работы является выяснение
возможностей аппарата таблиц сопряженности
для выявления связи между качественными
переменными.
Поставленная цель определяет
необходимость решения следующих задач.
- Провести анализ некоторых
способов выявления связей между качественными
переменными.
- Исследовать условия зависимости и независимости категориальных переменных в таблице сопряженности.
- Проверить согласованность классических способов выявления и оценки силы связи между категориальными переменными.
Для решения поставленных задач
в работе использовались аналитические
методы исследования прикладной статистики,
статистики объектов нечисловой природы,
описательный метод.
В результате выявлены теоретические
и практические особенности использования
известных способов установления связи
между качественными переменными. Определены
ограничения на значения частот таблиц
сопряженности для эффективного применения
различных критериев выявления и оценки
силы связи между качественными переменными.
Работа состоит из введения,
трех глав, заключения, списка использованных
источников.
Во введении обоснована актуальность
работы, сформулирована цель и поставлены
задачи исследования, приводятся методы
исследований и заявлены результаты работы.
Глава первая носит теоретико-аналитический
характер. В ней приведен обзор классических
способов социологического исследования,
статистических наблюдений, выявления
и оценки связей между категоризированными
переменными в таблицах сопряженности.
Во второй главе дается общее
понятие кросс табуляции и особенностей
ее применений в различных областях человеческого
знания, в том числе и в области социологии.
При этом особое внимание уделяется применению
аппарата таблиц сопряженности как достаточно
наглядного и универсального инструмента
выявления зависимости между качественными
переменными. Рассматриваются особенности
использования различных критериев проверки
связи между категоризованными переменными.
Далее представлены современные
методы анализа тесноты взаимосвязи между
качественными переменными. Представлен
поиск закономерностей для качественных
данных через применение критериев проверки
и оценки силы связи, в основе которых
лежит метод хи-квадрат.
Практическая часть представлена
примерами использования таблиц сопряженности
для статистического социологического
анализа.
Заключение содержит выводы
по теме работы.
Список использованных источников
представлен перечнем трудов по теме исследования
и смежным темам.
Глава 1. Место таблиц
сопряженности в структуре социологического
исследования
Развитие социологии обязательно
предполагает развитие эмпирических исследований,
обогащающих теорию и позволяющих разрабатывать
механизмы регулирования социальных процессов.
Социологические исследования обеспечивают
обратную связь, дополняя статистическую
информацию конкретными данными об интересах
и запросах, мнениях и настроениях людей,
о жизненных планах, уровне и качестве
жизни, ценностных установках. Особенность
такого развития обусловлена тем, что
статистические методы и построенный
на их основе анализ данных в социологии
и их реализация на компьютерных моделях
является мощным средством для решения
прикладных. Анализ и обобщение результатов
социологического исследования позволяют
предсказать возможные варианты развития
социальных процессов и явлений.
Частотные таблицы являются основным
способом представления статистических
данных. Они используются (рассчитываются
и анализируются) практически в любом
эмпирическом исследовании. Это не случайно.
Средства изучения статистических закономерностей
(а именно такие закономерности и пытается
найти социолог на основе изучения частотных
таблиц), предлагаемые современной наукой,
так или иначе базируются на положениях
математической статистики, объектом
изучения которой служат случайные величины,
предметом - параметры их распределений.
Все те закономерности, которые мы можем
найти с помощью математической статистики,
по существу фигурируют в виде наборов
параметров распределений случайных величин.
Частотные же таблицы являются, строго
говоря, выборочными представлениями
одномерных и многомерных случайных величин
(в выборочных исследованиях вместо термина
«случайная величина» используется термин
«признак» или его синонимы - «величина»,
«характеристика», «переменная»). Таким
образом, опора на анализ частотных таблиц,
к чему побуждает социолога здравый смысл,
в действительности оправдывается тем
серьезным изучением понятия статистической
закономерности, которое осуществлялось
в течение нескольких столетий в рамках
математической статистики.
Важность анализа частотных таблиц давно
осознана учеными. В настоящее время имеется
большое количество методов соответствующего
плана. К сожалению, далеко не все из них
активно задействованы в нашей социологии
(парадоксальным выглядит то обстоятельство,
что среди весьма слабо используемых в
широкой отечественной практике методов
есть и очень интересные алгоритмы, разработанные
советскими и российскими исследователями).
Особенности статистического исследования
Статистика имеет дело, прежде
всего с количественной стороной явлений
и процессов общественной жизни. Одной
из характерных особенностей статистики
является то, что при изучении количественной
стороны общественных явлений и процессов
она всегда отображает качественные особенности
исследуемых явлений, т.е. изучает количество
в неразрывной связи, единстве с качеством.
Свой предмет статистика изучает
при помощи определённых категорий, т.е.
понятий, которые отражают наиболее общие
и существенные свойства, признаки, связи
и отношения предметов и явлений объективного
мира.
Особенностью статистического
исследования является то, что в нём изучаются
только варьирующие признаки, т.е. признаки,
принимающие различные значения (для атрибутивных,
альтернативных признаков) или имеющие
различные количественные уровни у отдельных
единиц совокупности.
Основными свойствами статистической
информации являются ее массовость и стабильность.
Первая черта связана с особенностями
предмета исследования статистики как
науки, а вторая связана с тем, что однажды
собранная информация остается неизменной
и, следовательно, имеет способность устаревать.
Поэтому и выводы о состоянии и развитии
явления, сделанные на основе анализа
информации, полученной несколько лет
назад, могут быть неполными и даже неверными.
1.2. Краткая история статистических методов.
Типовые примеры раннего этапа
применения статистических методов описаны
в Ветхом Завете (см., например, Книгу Чисел).
Там, в частности, приводится число воинов
в различных племенах. С математической
точки зрения дело сводилось к подсчету
числа попаданий значений наблюдаемых
признаков в определенные градации.
Сразу после возникновения
теории вероятностей (Паскаль, Ферма, 17
век) вероятностные модели стали использоваться
при обработке статистических данных.
Например, изучалась частота рождения
мальчиков и девочек, было установлено
отличие вероятности рождения мальчика
от 0,5, анализировались причины того, что
в парижских приютах эта вероятность не
та, что в самом Париже, и т.д. Имеется достаточно
много публикаций по истории теории вероятностей
с описанием раннего этапа развития статистических
методов, к лучшим из них относится очерк.
В 1794 г. (по другим данным - в 1795
г.) К.Гаусс разработал метод наименьших
квадратов, один из наиболее популярных
ныне статистических методов, и применил
его при расчете орбиты астероида Церера
- для борьбы с ошибками астрономических
наблюдений. В Х1Х веке заметный вклад
в развитие практической статистики внес
бельгиец А.Кетле, на основе анализа большого
числа реальных данных показавший устойчивость
относительных статистических показателей,
таких, как доля самоубийств среди всех
смертей. Интересно, что основные идеи
статистического приемочного контроля
и сертификации продукции обсуждались
академиком Петербургской АН М.В.Остроградским
(1801-1862) и применялись в российской армии
ещё в середине Х1Х веке. Статистические
методы управления качеством и сертификации
продукции сейчас весьма актуальны.
Современный этап развития
статистических методов можно отсчитывать
с 1900 г., когда англичанин К. Пирсон основан
журнал «Biometrika». Первая треть ХХ в. прошла
под знаком параметрической статистики.
Разрабатывались методы, основанные на
анализе данных из параметрических семейств
распределений, описываемых кривыми семейства
Пирсона. Наиболее популярным было нормальное
(гауссово) распределение. Для проверки
гипотез использовались критерии Пирсона1, Стьюдента2, Фишера3. Были предложены метод максимального
правдоподобия, дисперсионный анализ,
сформулированы основные идеи планирования
эксперимента.
Разработанную в первой трети
ХХ в. теорию анализа данных называем параметрической
статистикой, поскольку ее основной объект
изучения - это выборки из распределений,
описываемых одним или небольшим числом
параметров. Наиболее общим является семейство
кривых Пирсона4, задаваемых четырьмя параметрами.
Как правило, нельзя указать каких-либо
веских причин, по которым распределение
результатов конкретных наблюдений должно
входить в то или иное параметрическое
семейство. Исключения хорошо известны:
если вероятностная модель предусматривает
суммирование независимых случайных величин,
то сумму естественно описывать нормальным
распределением; если же в модели рассматривается
произведение таких величин, то итог приближается
логарифмически нормальным распределением,
и т.д. Однако подобных моделей нет в подавляющем
большинстве реальных ситуаций, и приближение
реального распределения с помощью кривых
из семейства Пирсона или его подсемейств
- чисто формальная операция.
Классический подход к анализу
взаимосвязи с введением дополнительных,
контрольных переменных в социологии
и сопредельных дисциплинах получил название
метода уточнения. Метод уточнения был
детально разработан в 1940—1950-е гг. П. Лазарсфельдом,
С. Стауффером, П. Кендалл и их сотрудниками
для анализа элементарных таблиц сопряженности
и взаимосвязей номинальных признаков.
Однако общая логика этого подхода используется
и в более сложных техниках статистического
анализа, и при изучении количественных
данных.
1.3. Статистическое
наблюдение как метод статистического
исследования и процесс
Статистическое наблюдение
выступает как один из главных методов
статистики и как одна из важнейших стадий
статистического исследования. Важность
этого этапа исследования определяется
тем, что использование только объективной
и достаточно полной информации, полученной
в результате статистического наблюдения,
на последующих этапах исследования в
состоянии обеспечить научно обоснованные
выводы о характере и закономерностях
развития изучаемого объекта. Статистическое
наблюдение от начальной до завершающей
стадии-получения итоговых материалов
должно быть тщательно продуманным и четко
организованным.