Анализ таблиц сопряженности

Автор работы: Пользователь скрыл имя, 27 Апреля 2015 в 10:23, курсовая работа

Описание работы

Способы обработки числовой информации изучены достаточно хорошо и известны практически всем исследователям, в то же время проблеме обработки данных, имеющих нечисловую, а качественную природу, уделяется достаточно мало внимания. Это является первым моментом актуальности работы. Следующий фактор, отражающий актуальность, состоит в том, что основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей, а выявление закономерности, то есть связи между переменными, и последующей оценки ее силы является актуальной задачей прикладной статистики.

Содержание работы

ВВЕДЕНИЕ 3
Глава 1. Место таблиц сопряженности в структуре социологического исследования 5
1.1.Особенности статистического исследования 5
1.2. Краткая история статистических методов. 6
1.3. Статистическое наблюдение как метод статистического исследования и процесс 8
1.4. Статистические таблицы как средство наглядного и компактного представления цифровой информации 9
1.4.1. Простая статистическая таблица 10
1.4.2. Групповая статистическая таблица (сложная) 11
1.4.3. Комбинационная статистическая таблица (сложная) 11
1.4.5. Матрица 12
1.4.6. Таблица сопряженности 12
1.5. Анализ таблицы как метод научного исследования 13
Глава 2. Модели и методы анализа данных в таблицах сопряженности. 15
2.1. Таблицы сопряженности и таблицы флагов и заголовков 16
2.2. Статистики таблиц сопряженности 18
Глава 3. Анализ таблиц сопряженности 21
3.1. Анализ связи между двумя переменными 22
Заключение 30
Список используемой литературы 31

Файлы: 1 файл

Курсовая_002.docx

— 148.17 Кб (Скачать файл)

2. Общая форма таблицы сопряженности размерности 2x2

Переменная Y

Переменная X

0

1

Всего

1

А

b

a + b

0

С

d

c + d

Всего

а + с

b + d

N


 

Предположим, мы располагаем таблицей сопряженности для двух переменных-признаков X и Y, каждая из которых принимает лишь два значения, которые мы условно обозначим как 0 и 1. В каждой из четырех клеток таблицы содержатся абсолютные частоты, т. е. число случаев для каждого из возможных сочетаний значений признаков (т. е. для сочетаний 0—1, 1—1, 0—0, 1—0). Обозначим частоты в каждой из клеток таблицы латинскими буквами а, b, с и d. В такой общей форме таблица сопряженности для двух дихотомических признаков будет выглядеть как на таблице 2.

Для расчета коэффициента сопряженности фи используют формулу:

Эта простая в вычислительном отношении формула получается в результате ряда преобразований исходной формулы для вычисления величины хи-квадрат (c 2). Эта исходная формула позволяет лучше понять общую идею оценки связи качественных признаков, которую мы опишем, не вдаваясь в статистические детали. Исходная формула для величины хи-квадрат выглядит так:

Понятно, что наблюдаемые частоты мы можем найти в клетках таблицы сопряженности. Но что понимается под ожидаемыми, точнее, теоретически ожидаемыми частотами? Ожидаемые частоты — это те частоты, которые должны были бы стоять в клетках той же таблицы сопряженности, если бы две интересующие нас переменные были бы независимы, т. е. расслоение наблюдений по одному признаку оставалось бы пропорциональным для разных подгрупп, выделенных по другому признаку.

Пусть, например, данные относительно участия в парламентских выборах для 1000 опрошенных позволили построить таблицу 3.

3. Участие в выборах и пол

Участие в выборах

Женщины

Мужчины

Всего

Участвовали

200

500

700 (70%)

не участвовали

200

100

300 (30%)

Всего

400

600

1000(100%)


 

Для приведенных в таблице 3 данных гипотеза (или модель) независимого поведения признаков предполагала бы, что в мужской и женской подгруппах пропорция участия и неучастия в выборах должна была бы сохраняться такой же, как и для всей выборки в целом (разумеется, в пределах выборочной ошибки). Например, для женщин число участвовавших в выборах, с учетом их доли в выборке (равной 400/1000) составило бы, т. е. 280 проголосовавших. Отсюда автоматически следует, что до избирательных участков не дошли бы 120 дам (т. е. 400 -  280). Для модели независимости признаков таблица сопряженности выглядела бы так:

4. Ожидаемые частоты для распределения участия в  
выборах по полу (рассчитанные в соответствии с моделью независимости признаков).

Участие в выборах

Женщины

Мужчины

Всего

участвовали

280

420

700

не участвовали

120

180

300

Всего

400

600

1000


 

Сравнив таблицы 3 и 4, мы видим, что многое во второй из них осталось как было. Маргиналы таблицы, т. е. общее количество мужчин и женщин, проголосовавших и не проголосовавших, остались, естественно, неизменными. Отличаются лишь теоретически ожидаемые частоты в клетках таблицы 4. Хи-квадрат как раз и оценивает суммарную величину отклонения наблюдаемых значений от ожидаемых. Отметим, что для того чтобы найти табличное значение, нужно определить так называемое число степеней свободы. В рассматриваемом примере оно равно единице, так как все теоретически ожидаемые частоты в таблице 3 — при заданных маргиналах — можно получить, вычислив лишь одну из них. Если бы размерность таблицы была бы 4x4 (по четыре номинальные градации для каждого признака), то оценка хи-квадрат производилась бы для (4 - 1)(4 - 1) = 9, т. е. 9 степеней свободы. Обсуждавшийся выше коэффициент j — это просто квадратный корень нормированного относительно численности выборки хи-квадрата. Удобства коэффициента j очевидны: его легче вычислить, не прибегая к расчету ожидаемых частот, к тому же его величина меняется в пределах от 0 до 1. Существуют и другие коэффициенты взаимосвязи (сопряженности) признаков, основанные на величине хи-квадрат, например, V Крамера, Т Чупрова.

5. Ранги четырех школьниц по привлекательности (X) и популярности(Y)

Случай

Переменная X (ранг по привлекательности)

Переменная F (ранг по популярности)

Ольга

1

1

Светлана

2

3

Марьяна

3

2

Наташа

4

4


 

Для простейшего случая таблицы сопряженности 2 x 2 существует более простая в вычислительном отношении формула:

Отметим здесь, что направление связи далеко не всегда очевидно, т. е. не всегда можно уверенно утверждать, какая из переменных является зависимой. Если исследователь решит, что независимой является переменная, расположенная по горизонтали (а не по вертикали, как в нашем примере), он сможет подсчитать другую величину тау-коэффициента, на этот раз идя от строк и выполнив все операции в обратном порядке. (Для четырехклеточных таблиц величины тау по строкам и по столбцам будут равны.)

Далее нужно сравнивать случаи (т. е. школьниц) попарно, определяя, сходится или расходится порядок расположения двух этих случаев по двум переменным. Если упорядочения сходятся, пара называется согласованной, если они не сходятся, то пару нужно считать несогласованной. Результаты анализа для данных таблицы 5 представлены в таблице 6.

Предполагается, что если согласованных (т.е. правильно предсказывающих порядок по зависимой переменной) пар больше, чем несогласованных, связь между переменными велика. Если несогласованных пар больше, то связь отрицательна (чем выше ранг по одной переменной, тем ниже ранг по другой). Если же различие между числом согласованных и несогласованных пар невелико, то связь между переменными просто отсутствует. Поэтому формула для гаммы такова:

где Ns — число согласованных пар, Nr — число несогласованных пар.

6. Попарные сравнения рангов по переменным X и Y

Пара

Порядок по

X*

Порядок по Y*

Знак пары

(+ — согласованная,

-— несогласованная)

Ольга — Светлана

O > C

O > C

+

Ольга — Марьяна

O > M

O > M

+

Ольга — Наташа

О > Н

О > Н

+

Светлана — Марьяна

С > М

М > С

-

Светлана — Наташа

С > Н

С > Н

+

Марьяна — Наташа

М > Н

М > Н

+


 

* Примечание. Здесь использованы  лишь начальные буквы имен, т. е. О > С означает, что ранг Оли выше ранга Светы.

Для данных, используемых в нашем примере:

Обнаружив наличие взаимосвязи между двумя переменными и оценив интенсивность этой связи с помощью какого-либо коэффициента, исследователь стремится проинтерпретировать эту взаимосвязь в терминах причин и следствий. Иными словами, конечной целью измерения взаимосвязи между переменными является подтверждение (или опровержение) каких-то содержательных предположений, касающихся причинного механизма, порождающего найденную взаимосвязь. Однако, как уже говорилось, само по себе наличие связи между двумя переменными еще не доказывает, что эта связь может быть описана моделью причина — следствие. (А нулевой коэффициент сопряженности — еще не свидетельство отсутствия всякой причинной зависимости.)

Необходимо, во-первых, найти подтверждения того, что связь не является обратной. Например, если было показано, что существует сильная взаимосвязь между престижностью учебного заведения, где было получено высшее образование, и престижностью работы. Значит ли это, что при найме на работу потенциальные работодатели принимают во внимание рейтинг вуза, в котором проходил обучение соискатель? Вполне возможно. Но даже основываясь исключительно на здравом смысле, легко найти и другие объяснения обнаруженному факту. Может быть, шансы окончить престижное учебное заведение во многом зависят от социально-экономического статуса родителей? Не исключено также, что при устройстве на работу папины связи играют столь же существенную роль. В этом случае исходная простая модель престижное образование престижная работа требует уточнения и дополнения: и качество образования, и успешность карьеры зависят от социально-экономического статуса родителей. Такое уточнение вовсе не отменяет исходного факта — эмпирической взаимосвязи между образованием и карьерой, — оно лишь вводит более сложную модель причинной связи, показывая механизм воздействия третьей переменной (статуса родителей).

Существует обобщенный показатель, позволяющий оценить, насколько связь между переменными приближается к линейному функциональному отношению, которое на диаграмме рассеивания выглядит как прямая линия. Это коэффициент корреляции, измеряющий тесноту связи между переменными, т. е. их тенденцию изменяться совместно. Как и в рассмотренных выше мерах связи качественных признаков, коэффициент корреляции позволяет оценить возможность предсказания значений зависимой переменной по значениям независимой. Общая формула для вычисления коэффициента корреляции Пирсона включает в себя величину ковариации значений X и Y. Эта величина (Sxy) характеризует совместное изменение значений двух переменных. Она задается как сумма произведений отклонений наблюдаемых значений X и Y от среднихсоответственно, т. е.деленная на количество наблюдений. Таким образом, если линейная связь Х и Y положительная и велика, сумма таких произведений для всех наблюдений также будет положительна. Если связь межу Х и Y обратная, то многим положительным отклонениям по Х будет соответствовать отрицательные отклонения по Y, т.е. сумма отрицательных произведений отклонений будет отрицательной.

Наконец, при отсутствии систематической связи произведения будут иногда положительными, иногда отрицательными, а их сумма (и, следовательно, ковариация Х и Y) будет, в пределе, равная нулю. Таким образом, ковариация показывает величину и направление связи, совместного изменения Х и Y.

Таким образом, анализ таблиц сопряженности и метод уточнения — это наглядные и достаточно эффективные средства, используемые в проверке гипотез о взаимозависимости переменных. Однако этим подходам присущи определенные ограничения. Самые существенные из таких ограничений связаны, во-первых, с тем, что проводя перегруппировку количественных переменных в номинальные или ординальные, мы теряем существенную информацию о вариации признака внутри качественных градаций, внутри клеточек таблицы сопряженности, хотя эта информация содержится в сырых данных. Кроме того, для уточнения исходной причинной модели нам может потребоваться не одна, а две или четыре дополнительные переменные. Однако с введением новых контрольных переменных число частных таблиц сопряженности будет возрастать по степенному закону. Даже если все наши переменные будут иметь лишь две градации, общее количество клеток в частных таблицах сопряженности будет возрастать как степень двух, т. е., скажем, при четырех контрольных дихотомических переменных нам придется иметь дело с 64-клеточной общей таблицей сопряженности. Соответственно число наблюдений, случаев, приходящихся на каждую клетку таблицы, будет уменьшаться, а получаемые нами результаты окажутся более подверженными влиянию случайной ошибки выборки.

По этим причинам многие исследователи используют несколько более сложные статистические методы анализа, свободные от описанных ограничений.

 

Заключение

Анализу таблиц сопряженности посвящены статьи в периодических изданиях и монографии российских и зарубежных ученых. Как правило, информация, посвященная данной проблеме, изложенная в учебной литературе, имеет общий характер, а в современных монографиях по этой теме анализируются более узкие вопросы проблемы.

Согласно исследованию научных публикаций в наиболее престижных зарубежных журналах, посвященных социальным и поведенческим наукам 77% всех социологических исследований проведены в рамках количественного подхода. Из них 71% является корреляционными исследованиями или исследованиями, посвященными изучению связей между социальными явлениями.

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера).

Информация о работе Анализ таблиц сопряженности