Анализ таблиц сопряженности

Автор работы: Пользователь скрыл имя, 27 Апреля 2015 в 10:23, курсовая работа

Описание работы

Способы обработки числовой информации изучены достаточно хорошо и известны практически всем исследователям, в то же время проблеме обработки данных, имеющих нечисловую, а качественную природу, уделяется достаточно мало внимания. Это является первым моментом актуальности работы. Следующий фактор, отражающий актуальность, состоит в том, что основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей, а выявление закономерности, то есть связи между переменными, и последующей оценки ее силы является актуальной задачей прикладной статистики.

Содержание работы

ВВЕДЕНИЕ 3
Глава 1. Место таблиц сопряженности в структуре социологического исследования 5
1.1.Особенности статистического исследования 5
1.2. Краткая история статистических методов. 6
1.3. Статистическое наблюдение как метод статистического исследования и процесс 8
1.4. Статистические таблицы как средство наглядного и компактного представления цифровой информации 9
1.4.1. Простая статистическая таблица 10
1.4.2. Групповая статистическая таблица (сложная) 11
1.4.3. Комбинационная статистическая таблица (сложная) 11
1.4.5. Матрица 12
1.4.6. Таблица сопряженности 12
1.5. Анализ таблицы как метод научного исследования 13
Глава 2. Модели и методы анализа данных в таблицах сопряженности. 15
2.1. Таблицы сопряженности и таблицы флагов и заголовков 16
2.2. Статистики таблиц сопряженности 18
Глава 3. Анализ таблиц сопряженности 21
3.1. Анализ связи между двумя переменными 22
Заключение 30
Список используемой литературы 31

Файлы: 1 файл

Курсовая_002.docx

— 148.17 Кб (Скачать файл)

Аппроксимация статистики хи-квадрат для таблиц 2x2 с малыми числом наблюдений в ячейках может быть улучшена уменьшением абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0.5 перед возведением в квадрат (так называемая поправка Йетса). Поправка Йетса, делающая оценку более умеренной, обычно применяется в тех случаях, когда таблицы содержат только малые частоты, например, когда некоторые ожидаемые частоты становятся меньше 10

Этот критерий применим только для таблиц 2x2. Критерий основан на следующем рассуждении. Даны маргинальные частоты в таблице, предположим, что обе табулированные переменные независимы. Зададимся вопросом: какова вероятность получения наблюдаемых в таблице частот, исходя из заданных маргинальных? Оказывается, эта вероятность вычисляется точно подсчетом всех таблиц, которые можно построить, исходя из маргинальных. Таким образом, критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе (отсутствие связи между табулированными переменными).

Хи-квадрат Макнемара применяется, когда частоты в таблице 2x2 представляют зависимые выборки. Например, наблюдения одних и тех же индивидуумов до и после эксперимента. В частности, вы можете подсчитывать число студентов, имеющих минимальные успехи по математике в начале и в конце семестра или предпочтение одних и тех же респондентов до и после рекламы. Вычисляются два значения хи-квадрат: A/D и B/C. A/D хи-квадрат проверяет гипотезу о том, что частоты в ячейках A и D (верхняя левая, нижняя правая) одинаковы.

Фи-квадрат представляет собой меру связи между двумя переменными в таблице 2x2. Его значения изменяются от 0 (нет зависимости между переменными; хи-квадрат = 0.0) до 1 (абсолютная зависимость между двумя факторами в таблице). Подробности см. в Castellan and Siegel (1988, стр. 232).

Тетрахорическая корреляция вычисляется (и применяется) только для таблиц сопряженности 2x2. Если таблица 2x2 может рассматриваться как результат (искусственного) разбиения значений двух непрерывных переменных на два класса, то коэффициент тетрахорической корреляции позволяет оценить зависимость между двумя этими переменными.

Коэффициент сопряженности представляет собой основанную на статистике хи-квадрат меру связи признаков в таблице сопряженности (предложенную Пирсоном). Преимущество этого коэффициента перед обычной статистикой хи-квадрат в том, что он легче интерпретируется, т.к. диапазон его изменения находится в интервале от 0 до 1 (где 0 соответствует случаю независимости признаков в таблице, а увеличение коэффициента показывает увеличение степени связи). Недостаток коэффициента сопряженности в том, что его максимальное значение зависит от размера таблицы. Этот коэффициент может достигать значения 1 только, если число классов не ограничено.

Существенный недостаток рассмотренных выше мер связи связан с трудностью их интерпретации в обычных терминах вероятности или доли объясненной вариации, как в случае коэффициента корреляции r Пирсона. Поэтому не существует одной общепринятой меры или коэффициента связи.

 

 

Глава 3. Анализ таблиц сопряженности

 

Представляется естественным использовать для оценки связей между признаками т. н. частотные таблицы, или таблицы сопряженности.

Предположим, что мы имеем два признака X и Y, первый из которых принимает r значений 1, 2, . . ., r, а второй – c значений 1, 2, . . ., c. Назовем двумерной таблицей сопряженности (двумерной частотной таблицей) некоторую матрицу, на пересечении i-й строки и j-го столбца которой стоит число n i ij , означающее количество объектов, обладающих i-м значением первого признака и j-м значением второго (i =1, . . ., r; j =1, . . ., c) (использование латинских букв r и c в указанном смысле принято в литературе; эти буквы сопрягаются с английским словами raw и column, означающими строка и столбец соответственно; это не позволяет нам забывать, что значения одного признака отвечают строкам таблицы сопряженности, а другого - столбцам). Другими словами, таблица сопряженности выглядит так:

Таблица 6.

Общий вид таблицы сопряженности

 

X

Y

Маргиналы

по строкам

1

2

j

c

   

1

n 11

n 12

n 1 j

n 1 c

n 1 .

2

n 21

n 22

n 2 j

n 2c

n 2 .

i

n i1

n i2

n ij

n ic

n i .

r

n r1

n r2

n rj

n rc

n r .

Маргиналы

по столбцам

n . 1

n . 2

n . j

n . c

n


 

Правый крайний столбец образуют строковые маргинальные суммы (маргиналы по строкам). Величина n i . равна сумме элементов i-й строки (т.е. числу тех объектов, для которых первый признак принимает значение i). Нижняя строка образуется столбцовыми маргинальными суммами (маргиналами по столбцам). Величина n. j равна сумме элементов j-го столбца (т.е. числу тех объектов, для которых второй признак принимает значение j). n - объем выборки, он равен сумме маргиналов по столбцам (либо по строкам).

В последние годы в литературе все более используется расширительное понимание таблицы сопряженности. Предполагается, что в качестве ее элементов могут фигурировать не только частоты, но и многие другие числа: скажем, в клетках половозрастной таблицы могут стоять средние значения зарплаты тех людей, которые характеризуются отвечающим клетке значениям пола и возраста. Таким же образом в клетки таблицы могут быть помещены средние другого рода (мода, медиана), дисперсии, величины отклонений от средних по строке (столбцу), разница между эмпирической и теоретической частотой

Таблицы сопряженности позволяют измерить связи между кросстабулированными переменными.

3.1. Анализ связи между двумя переменными

Хотя результаты одномерного анализа данных часто имеют самостоятельное значение, большинство исследователей уделяют основное внимание анализу связей между переменными. Самым простым и типичным является случай анализа взаимосвязи (сопряженности) двух переменных. Используемые здесь методы задают некоторый логический каркас, остающийся почти неизменным и при рассмотрении более сложных моделей, включающих множество переменных. Устойчивый интерес социологов к двумерному и многомерному анализу данных объясняется вполне понятным желанием проверить гипотезы о причинной зависимости двух и более переменных. Ведь утверждения о причинных взаимосвязях составляют фундамент не только социальной теории, но и социальной политики (по крайней мере, так принято считать). Так как возможности социологов проверять причинные гипотезы с помощью эксперимента, как уже говорилось, ограниченны, основной альтернативой является статистический анализ неэкспериментальных данных.

В общем случае для демонстрации причинно-следственного отношения между двумя переменными, скажем, X и Y, необходимо выполнить следующие требования:

    • показать, что существует эмпирическая взаимосвязь между переменными;
    • исключить возможность обратного влияния Y на Х;
    • убедиться, что взаимосвязь между переменными не может быть объяснена зависимостью этих переменных от какой-то дополнительной переменной (или переменных).

Первым шагом к анализу взаимоотношений двух переменных является их перекрестная классификация, или построение таблицы сопряженности. Речь идет о таблице, содержащей информацию о совместном распределении переменных. Допустим, в результате одномерного анализа данных мы установили, что люди сильно различаются по уровню заботы о своем здоровье: некоторые люди регулярно делают физические упражнения, другие — полностью пренебрегают зарядкой. Мы можем предположить, что причина этих различий — какая-то другая переменная, например, пол, образование, род занятий, доход и т. п.

Пусть мы располагаем совокупностью данных о занятиях физзарядкой и образовании для выборки горожан. Для простоты мы предположим, что обе переменные имеют лишь два уровня: высокий и низкий. Так как данные об образовании исходно разбиты на большее количество категорий, нам придется их перегруппировать, разбив весь диапазон значений на два класса. Предположим, мы выберем в качестве граничного значения 10 лет обучения, так что люди, получившие неполное среднее и среднее образование, попадут в низкую градацию, а остальные — в высокую. (Это, конечно, большое огрубление, но мы используем его из соображений простоты.) Для занятий физическими упражнениями мы соответственно воспользуемся двумя категориями — делают физзарядку и не делают физзарядку. Таблица 1 показывает, как могло бы выглядеть совместное распределение этих двух переменных.

    1. Взаимосвязь между уровнем образования и занятиями физкультурой

Занятия физкультурой

Уровень образования

Всего

низкий

высокий

делают зарядку

50

200

250

не делают зарядку

205

45

250

всего

255

245

500


 

В таблице 1 два столбца (для образования) и две строки (для занятий физкультурой), следовательно, размерность этой таблицы 2x2. Кроме того, имеются дополнительные крайний столбец и крайняя строка (маргиналы таблицы), указывающие общее количество наблюдений в данной строке или в столбце. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке. Не давшие ответа уже исключены (для реальных данных их число также стоит указать, но не в таблице, а в подтабличной сноске). Заметим здесь, что многие исследователи при построении таких таблиц пользуются неписаным правилом: для той переменной, которую полагают независимой, отводится верхняя строка (горизонталь), а зависимую располагают сбоку, по вертикали (разумеется, соблюдение этого правила не является обязательным и ничего с точки зрения анализа не меняет).

Обычно характер взаимоотношений между переменными в небольшой таблице можно определить даже на глазок, сравнивая числа в столбцах или строках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в проценты, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу. Например,  %, т. е. 19,6% имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину — процент по строке. В частности, можно заметить, что 80% делающих зарядку, составляют люди с высоким уровнем образования  Деление на общую численность выборки дает общий процент. Так, всего в выборке 50% людей, делающих зарядку.

Так как вывод о наличии взаимосвязи между переменными требует демонстрации различий между подгруппами по уровню зависимой переменной, при анализе таблицы сопряженности можно руководствоваться простыми правилами. Во-первых, нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертикали, проценты берутся от сумм по строке. Далее сравниваются процентные показатели, полученные для подгрупп с разным уровнем независимой переменной, каждый раз внутри одной категории зависимой переменной (например, внутри категории делающих зарядку). Обнаруженные различия свидетельствуют о существовании взаимосвязи между двумя переменными. (В качестве упражнения примените описанную процедуру к таблице 1, чтобы убедиться в наличии связи между уровнем образования и занятиями физкультурой.)

Отметим специально, что элементарная таблица сопряженности размерности 2x2 — это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных. Знания о распределении зависимой переменной недостаточно.

Варьировать должна не только зависимая, но и независимая переменная.

Для таблиц размерности 2 х 2 и более можно рассчитать специальные показатели (статистики), дающие суммарное выражение степени взаимосвязи, ассоциации между двумя переменными. Таких мер связи довольно много. Для случая двух номинальных переменных существуют два основных подхода к подсчету коэффициентов взаимосвязи. Проанализировав их общую логику, мы получим возможность ориентироваться в многообразии конкретных показателей, предлагаемых прикладными программами анализа данных. Первый подход базируется на статистике, называемой хи-квадрат. На ее основе можно рассчитать несколько коэффициентов взаимосвязи. Рассмотрим в качестве примера коэффициент фи, формула для которого была впервые предложена сэром Карлом Пирсоном в 1901 году специально для того, чтобы сделать возможным анализ взаимосвязи между двумя переменными, измеренными на неколичественном уровне.

Информация о работе Анализ таблиц сопряженности