Анализ таблиц сопряженности

Автор работы: Пользователь скрыл имя, 27 Апреля 2015 в 10:23, курсовая работа

Описание работы

Способы обработки числовой информации изучены достаточно хорошо и известны практически всем исследователям, в то же время проблеме обработки данных, имеющих нечисловую, а качественную природу, уделяется достаточно мало внимания. Это является первым моментом актуальности работы. Следующий фактор, отражающий актуальность, состоит в том, что основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей, а выявление закономерности, то есть связи между переменными, и последующей оценки ее силы является актуальной задачей прикладной статистики.

Содержание работы

ВВЕДЕНИЕ 3
Глава 1. Место таблиц сопряженности в структуре социологического исследования 5
1.1.Особенности статистического исследования 5
1.2. Краткая история статистических методов. 6
1.3. Статистическое наблюдение как метод статистического исследования и процесс 8
1.4. Статистические таблицы как средство наглядного и компактного представления цифровой информации 9
1.4.1. Простая статистическая таблица 10
1.4.2. Групповая статистическая таблица (сложная) 11
1.4.3. Комбинационная статистическая таблица (сложная) 11
1.4.5. Матрица 12
1.4.6. Таблица сопряженности 12
1.5. Анализ таблицы как метод научного исследования 13
Глава 2. Модели и методы анализа данных в таблицах сопряженности. 15
2.1. Таблицы сопряженности и таблицы флагов и заголовков 16
2.2. Статистики таблиц сопряженности 18
Глава 3. Анализ таблиц сопряженности 21
3.1. Анализ связи между двумя переменными 22
Заключение 30
Список используемой литературы 31

Файлы: 1 файл

Курсовая_002.docx

— 148.17 Кб (Скачать файл)
  • совокупности и единиц наблюдения, формирующих таблицу,
  • признаков и их комбинаций, формирующих подлежащее и сказуемое таблицы;
  • признаков количественных или атрибутивных;
  • соотношения признаков подлежащего с показателями сказуемого,
  • вида таблицы: простая или сложная, а последняя - групповая 
    или комбинационная;
  • решаемых задач - анализ структуры, типов явлений или их взаимосвязей.

Содержательный анализ предполагает изучение внутреннего содержания таблицы: анализ отдельных групп подлежащего по соответствующим признакам сказуемого; выявление соотношения и пропорций между группами явлений по одному и разным признакам, сравнительный анализ и формулировку выводов по отдельным группам и по всей совокупности в целом; установление закономерностей и определение резервов развития изучаемого объекта.

Прежде чем приступать к анализу числовой информации, необходимо проверить ее достоверность и научную обоснованность. Исследователь должен убедиться в достоверности и надежности источника информации данных и критически оценить их цифровые значения. Следует провести логическую и счетную проверки данных.

Логическая проверка состоит в возможности определения конкретных признаков теми или иными числовыми значениями. Счетная проверка предполагает выборочный расчет отдельных значений признаков по группе либо итоговых значений строк или граф и т.д.

Анализ данных таблиц производится по каждому признаку в отдельности, затем в логико-экономическом сочетании всей совокупности признаков в целом. Анализ таблиц может быть дополнен расчетными относительными и средними величинами, если этого требуют задачи исследования. Для получения более полного и наглядного представления об изучаемых явлениях и процессах по данным статистических таблиц строятся графики, диаграммы и т.д.

Анализ групповых и комбинационных таблиц позволяет охарактеризовать типы социально-экономических явлений, структуру совокупности, соотношения и пропорции между отдельными группами и единицами наблюдения; выявить характер и направление взаимосвязей и взаимозависимостей между различными, определенными логикой экономического анализа сочетаниями признаков и найти зависимости признаков - следствия от признаков - причин.

 

Глава 2. Модели и методы анализа данных в таблицах сопряженности.

Все анализируемые в статистике признаки делятся на две основные группы: признаки количественные (вес, рост, систолическое давление, и т.д.), и признаки качественные (пол, состояние пациента, исход лечения, и т.д.). для этих 2-х групп признаков существует три парных комбинации (сочетания признаков).

Первая комбинация, когда оба признака качественные. В этом случае как раз используется анализ таблиц сопряжённости.

Вторая комбинация, когда оба признака количественные. В этом случае используются различные методы корреляционного и регрессионного анализа.

Третья комбинация, когда один признак качественный, имеющий определённое количество групп (градаций), второй признак - количественный. В этом случае используются различные методы сравнения групповых характеристик количественных признаков.

Однако для любой из перечисленных комбинаций полученный результат наличия или отсутствия статистически значимой взаимосвязи будет относиться лишь к одной паре признаков. Например, есть пять признаков, часть которых является качественными признаками, а остальные - количественными. В этом случае статистический анализ позволяет проверить статистические гипотезы относительно наличия (отсутствия) взаимосвязей для следующих пар признаков: 1-2, 1-3, 1-4, 1-5, 2-3, 2-4, 2-5, 3-4, 3-5, и 4-5. число таких пар для пяти признаков равно 5*(5-1)/2=10. а в общем случае для v признаков число парных комбинаций равно v*(v-1)/2.

Так для 100 признаков это будет 100*(100-1)/2=50*99=4950. однако это будут только парные взаимосвязи. В реальных же ситуациях при изучении любых объектов, будь то живые организмы, или данные по геологии, химии, гидрологии, метеорологии, и т.д., помимо парных взаимосвязей существуют и иные взаимосвязи между признаками, число которых более двух, и в этом случае такие цепочечные взаимосвязи требуют иных, многомерных статистических методов.

Очень часто для таких подмножеств признаков существуют несколько качественных признаков, которые группируют несколько отличающихся исходов. Анализ качественных признаков может применяться достаточно широко, поскольку большая часть используемых признаков имеют качественную природу. В том случае, когда достигнутый уровень значимости будет меньше критического, и будет принята гипотеза о наличии статистической взаимосвязи между парой качественных признаков, очень важно идентифицировать в каких сочетаниях градаций этих признаков сконцентрирована данная взаимосвязь.

Отметим, что факт наличия взаимосвязи не обязательно может трактоваться как установление причинно-следственной связи, так как в этом случае возможны две ситуации.

Во-первых, один из признаков может быть причиной, а второй - следствием.

Во-вторых, оба признака могут быть следствиями других признаков. Однако в обоих случаях важно установить как сочетание градаций (клетки) этих двух анализируемых признаков, для которых имеет место максимальное проявление взаимосвязи.

Необходимо также установить те комбинации градаций (клетки), в которых взаимосвязь отсутствует.

Следующий аспект такого углублённого анализа заключается в определении в клетках с максимальными вкладами в установленную взаимосвязь, направления этой взаимосвязи.

2.1. Таблицы сопряженности и таблицы флагов и заголовков

Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные (номинальные) переменные или переменные с относительно небольшим числом значений. Если вы хотите табулировать непрерывную переменную (например, доход), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, доход: низкий, средний, высокий).

Таблицы 2x2. Простейшая форма кросстабуляции - это таблица сопряженности 2 x 2, в которой значения двух переменных пересечены (сопряжены) на разных уровнях и каждая переменная принимает только два значения, т.е. имеет два уровня (поэтому таблица называется 2 на 2). К примеру, пусть проводится исследование, в котором мужчины и женщины опрашиваются о том, какой напиток они предпочитают (газированную воду марки A или газированную воду марки B); файл данных может быть таким:

 

пол

газ. вода

наблюдение 1 
наблюдение 2 
наблюдение 3 
наблюдение 4 
наблюдение 5 
...

мужчина 
женщина 
женщина 
женщина 
мужчина 
...






...


 

Результаты кросстабуляции этих переменных выглядят следующим образом.

 

газ. вода: a

газ. вода: b

 

пол: мужчина

20 (40%)

30 (60%)

50 (50%)

пол: женщина

30 (60%)

20 (40%)

50 (50%)

 

50 (50%)

50 (50%)

100 (100%)


 

Каждая ячейка таблицы содержит единственную комбинацию значений двух табулированных переменных (в строке - указана переменная Пол в столбце - переменная марка воды). Числа в каждой ячейке, на пересечении определенной строки и определенного столбца, показывают, сколько наблюдений соответствует данным уровням факторов. В целом таблица показывает, что женщины больше мужчин предпочитают газированную воду марки A, мужчины больше женщин предпочитают марку B. Таким образом, пол и предпочтение могут быть зависимыми (позже будет показано, как эту связь измерить статистически).

Маргинальные частоты. Значения, расположенные по краям таблицы сопряженности - это обычные таблицы частот (с одним входом) для рассматриваемых переменных. Так как эти частоты располагаются на краях таблицы, то они называются маргинальными. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку A (см. первый столбец таблицы), не могли бы показать какой-либо связи между переменными Пол и Газ.вода, если бы маргинальные частоты переменной Пол были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе. Таким образом, различие в распределении частот в строках (или столбцах) отдельных переменных и в соответствующих маргинальных частотах дают информацию о связи переменных.

Проценты по столбцам, по строкам и проценты от общего числа наблюдений. Пример в предыдущем разделе показывает, что для оценки связи между табулированными переменными, необходимо сравнить маргинальные и индивидуальные частоты в таблице. Такие сравнения легче проводить, имея дело с относительными частотами или процентами.

Графическое представление таблиц сопряженности. В целях исследования отдельные строки и столбцы таблицы удобно представлять в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Таблицы с двумя входами можно изобразить на 3-мерной гистограмме. Другой способ визуализации таблиц сопряженности - построение категоризованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами на каждом уровне другой переменной. Преимущество 3М гистограммы в том, что она позволяет представить на одном графике таблицу целиком. Достоинство категоризованного графика в том, что он дает возможность точно оценить отдельные частоты в каждой ячейке.

Таблицы флагов и заголовков. Таблицы флагов и заголовков или, кратко, таблицы заголовков позволяют отобразить несколько двувходовых таблиц в сжатом виде. Этот тип таблиц можно объяснить на примере файла интересов к спорту (см. таблицу ниже). Для краткости, в таблице изображены только строки для категорий Всегда и Обычно.

Основные статистики

Таблица флагов и заголовков: 
проценты по строкам

фактор

футбол 
всегда

футбол 
обычно

всего 
по строке

бейсбол: всегда 
бейсбол: обычно

92.31 
61.54

7.69 
38.46

66.67 
33.33

бейсбол: всего

82.05

17.95

100.00

теннис: всегда 
теннис: обычно

87.50 
87.50

12.50 
12.50

66.67 
33.33

теннис: всего

87.50

12.50

100.00

бокс: всегда 
бокс: обычно

77.78 
100.00

22.22 
0.00

52.94 
47.06

бокс : всего

88.24

11.76

100.00


 

Интерпретация таблиц заголовков. В приведенной выше таблице результатов представлены три двувходовые таблицы, в которых интерес к Футболу сопряжен с интересом к Бейсболу, Теннису и Боксу. Таблица содержит информацию о процентах по столбцам, поэтому суммы по строкам равны 100%. Например, число в левом верхнем углу таблицы результатов (92.31) показывает, что 92.31 процентов всех респондентов ответили, что им всегда интересно смотреть футбол и всегда интересно смотреть баскетбол. Если вы посмотрите следующую часть таблицы, то увидите, что процент тех, кому всегда интересно смотреть футбол и всегда интересно смотреть теннис, равен 87.50; для бокса этот процент составляет 77.78. Проценты в столбце (Всего по строке), показанные после каждого набора переменных, всегда связаны с общим числом наблюдений.

Когда кросстабулируются только две переменные, результирующая таблица называется двувходовой. Это многовходовые таблицы с категориальными переменными. Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и пониманием таких таблиц, даже если они содержат более четырех переменных. Рекомендуется анализировать зависимости между факторами в таких таблицах с помощью более продвинутых методов, таких как логлинейный анализ или анализ соответствий.

2.2. Статистики таблиц сопряженности

Таблицы сопряженности позволяют измерить связи между кросстабулированными переменными.

Хи-квадрат Пирсона - это наиболее простой критерий проверки значимости связи между двумя категоризованными переменными. Критерий Пирсона основывается на том, что в двувходовой таблице ожидаемые частоты при гипотезе между переменными нет зависимости можно вычислить непосредственно. Значение статистики хи-квадрат и ее уровень значимости зависит от общего числа наблюдений и количества ячеек в таблице.

Имеется только одно существенное ограничение использования критерия хи-квадрат (кроме очевидного предположения о случайном выборе наблюдений), которое состоит в том, что ожидаемые частоты не должны быть очень малы. Это связано с тем, что критерий хи-квадрат по своей природе проверяет вероятности в каждой ячейке; и если ожидаемые частоты в ячейках, становятся, маленькими, например, меньше 5, то эти вероятности нельзя оценить с достаточной точностью с помощью имеющихся частот.

Максимум правдоподобия хи-квадрат предназначен для проверки той же самой гипотезы относительно связей в таблицах сопряженности, что и критерий хи-квадрат Пирсона. Однако его вычисление основано на методе максимального правдоподобия. На практике статистика МП хи-квадрат очень близка по величине к обычной статистике Пирсона хи-квадрат.

Информация о работе Анализ таблиц сопряженности