Автор работы: Пользователь скрыл имя, 31 Октября 2013 в 16:51, курс лекций
Анализ невременных данных.
Характеристики случайной величины.
Модель парной линейной регрессии.
Теорема Гаусса-Маркова.
Ковариационная матрица.
Дисперсионный анализ.
Модель множественной регрессии.
Спецификация модели.
Dummy – переменные, фиктивные переменные.
Например: оценка успеваемости, номер места на соревнованиях или группы людей по возрастам. В исследовании социально-экономических явлений часто возникает необходимость оценить силу связи между категориальными и порядковыми переменными. Коэффициент корреляции Пирсона, который считали ранее, не подходит, он не показывает реального состояния. Необходимо использовать другие коэффициенты связи.
Пример: Пусть у нас имеется лекарство и мы хотим проверить есть ли связь между приемом этого лекарства и состояния больного.
x2 x1 |
В |
|
Итого по строке |
А |
n11 |
n12 |
n10 |
Ā |
n21 |
n22 |
n20 |
Итого по стобцу |
n01 |
n02 |
N |
Всех больных случайным
Х1: А – давали лекарство
Ā – не давали
Х2 – результат лечения.
Х2: В – состояние улучшилось
В – состояние ухудшилось
Результаты этого опыта можно представить в таблице.
n11 – число людей, которым давали лекарство и чье состояние улучшилось.
n12 - число людей, которым давали лекарство и чье состояние ухудшилось.
n01=n11+n21
n02=n12+n22
n10=n11+n12
N20=n21+n12
N=n11+n12+n21+n22
Задача состоит в том, чтобы по этим 4-м числам определить, связан ли результат лечения с приемом лекарства и как именно связан.
Рассмотрим разные варианты.
1.Если между Х1 и Х2 нет
никакой связи, лекарство
Доля принимающих лекарство, чье состояние улучшилось=n11/n01
Доля принимающих лекарство, чье состояние ухудшилось=n12/n02
Доля принимавших лекарство
среди всех участвующих в эксперименте=n11
N11=(n11+n12)(n22+n21)/N – то связи нет!
На равенстве долей и
Если D=0, то связи нет.
Если связь сильная отрицательная, то коэффициент Юла D=-1
Если связь сильная
Замечание: Коэффициент Юла подходит, если рассматривается таблица 2*2. Т.е. определяется сила связи между 2-мя параметрами, каждый из которых принимает только 2 значения.
Связь считается подтвержденной, если ׀D׀>0,5.
Пример 1.
B |
| |
A |
n11 |
n12 |
Ā |
0 |
n22 |
D=(n11n22-0)/(n11n22+0)=1, т.е. из нелечения Þухудшение состояния.
Пример 2.
n11 |
n12 |
n21 |
0 |
D=(0-n12n21)/(0+n12n21)=-1, т.е. из лечения Þухудшение самочувствия или если не лечили, то обязательно стало лучше.
Однако часто в маркетинговых исследованиях приходится сталкиваться с ситуацией, когда 1 или оба признака принимают несколько значений.
В этом случае рассчитать коэффициент Юла не получится и следует использовать другие коэффициенты.
Примером таблиц n*m может служить анализ результатов выборок кандидатов в разных регионах страны. Тогда каждому региону сопоставляют столбец, а каждому кандидату – строку.
В таблице стоят значения рейтинга кандидата в соответствующем регионе. Требуется установить связь между регионом и рейтингом в нем кандидатов. Рассмотрим различия статистики тесноты связи: 1. Фи – коэффициент. Его используют для таблиц 2*2.
Фи= , где
- итоговое число в столбце
- итоговое число в строке
- полный размер выборки
- соответствующее число в таблице
Ф – коэффициент принимающий значение, равное 0, если связь присутствует, и 1, если связь сильная.
Пример. Найти связь между использованием Интернета и полом.
Исп.интер |
М |
Ж |
Итого |
Много(>3ч.в день) |
5 |
10 |
15 |
Мало(<3ч.в день) |
10 |
5 |
15 |
Итого |
15 |
15 |
30 |
= =7,5
=7,5
=7,5
=7,5
Тогда
Таким образом связь положительная, не очень сильная.
Ф применяется только для таблиц 2*2, а коэффициент сопряженности С используется в таблице любого размера.
С Î [0;1]
Также используется V – коэффициент Крамера, который является модификацией.
Для таблиц с r рядами
,
т.е. V – коэффициент подтверждает наличие слабой связи.
- коэффициент взаимной
Пример.
Форма собственности |
Оценка уровня жизни | ||||
Вполне уд. |
Скорее уд. |
Скорее неуд. |
Совсем неуд. |
Итого | |
Государственная |
31 |
35 |
35 |
35 |
136 |
Муниципальная |
17 |
13 |
14 |
9 |
53 |
Смешанная рос. |
4 |
2 |
1 |
1 |
8 |
Частная |
8 |
5 |
4 |
3 |
20 |
Итого |
60 |
55 |
54 |
48 |
27 |
Оценить взаимосвязь
между уровнем жизни
Вывод: коэффициент маленький (меньше 0,3) Þ значимой связи между формой собственности и уровнем жизни.
Существует модификация этого коэффициента через
Он имеет особое значение, т.к. позволяет
оценить связь между
где
и - средние по группе
sу – корень из дисперсии (для количественной переменной)
р – доля 1-ой группы
q – доля 2-ой группы
z – табличное значение в зависимости от распределения значений 1-ой группы.
Пример. Найти зависимость между возрастом и социальным положением потенциальных эмигрантов.
До 30 |
30-40 |
40-50 |
50 и более |
Всего, чел. | |
Руковод |
5 |
30 |
39 |
26 |
100 |
Рабочие |
21 |
28 |
13 |
100 | |
Итого |
26 |
68 |
67 |
39 |
200 |
Оценить силу связи.
- частота проявления признаков.
Выбираем
среднее в группе = [25*5+35*30+45*39+55*26]*1/
Средний возраст эмигрантов – руководителей =43,6 лет.
(рабочие) = [25*21+35*38+45*28+55*13]*1/
= [25*26+35*68+45*67+55*39]*1/
sу=
Р (рук)=100/200=0,5
Q (раб)=100/200=0,5
Z=0,3977
Как определить силу линейной связи между порядковыми переменными, между которыми существует отношение упорядоченности, т.е. между ранжированными значениями?
Все дальнейшие рассуждения опираются на понятие ранг.
Ранг – номер объекта в упорядоченном ряду.
Например: эксперт сравнивает объекты и выстраивает их по порядку. Чем лучше объект, тем выше ранг ему присваивают.
Ранг
A B C D E F G – ранжированный вариационный ряд
D A B C F E G
1 2 3 4 5 6 7
ранг
Т – объем выборки.
К сожалению, бывает, что ранги не различимы. Если же какие-то объекты не различимы для объекта, то используется понятие распределенный ранг. Тогда всем 3-м объектам присваивается один и тот же номер ранга, получаемый как сумма рангов этих объектов, деленная на их количество.
B C F – не различимы
(3+4+5)/3=4
Суммарное значение всех присвоенных рангов зависит от объема выборки и может быть рассчитан следующим образом:
- номер ранга, присвоенного i-му объекту.
В нашем случае
Рассмотрим задачу о силе связи 2-х различных оценок. Эти 2 оценки были получены с помощью оценивания одного и того же множества, но разными критериями. Например: инвестиционные проекты могут быть оценены с помощью или чистого дохода или срока окупаемости.
Х1 – 1-ый признак
Х2 - 2-й признак.
Тогда результаты оценивания могут быть представлены в таблице.
1 |
2 |
3 |
4 |
… |
Т | |
Х1 |
Х1(1) |
Х1(2) |
Х1(3) |
Х1(4) |
… |
Х1(Т) |
Х2 |
Х2(1) |
Х2(2 |
Х2(3) |
Х2(4) |
… |
Х2(Т) |
Хi(k) – это значение ранга, присвоенного объекту с номером к по i-му признаку.
В нашем случае i=(1;2)
Требуется определить силу связи этих 2-х оценок, причем желательно, чтобы мера связи лежала в отр. [-1;1] и была бы равна
0, если связи нет
1, если связь сильная
-1, если связь сильная
Связь будет идеально положительна, если Х1(к)=Х2(к), т.е. совпадают.
Связь будет сильно отрицательной, если 2-й ряд упорядочен в обратном порядке, т.е. Х2(к)=Т-Х1(к)+1
В качестве меры связи можно использовать ранговый коэффициент корреляции Спирмена, который для 2-х критериев выглядит следующим образом:
Если имеются
Пример.
N |
Стоимость активов |
Кредит.вложения |
СК |
Ry |
Rx1 |
Rx2 |
Di |
Di2 |
0 |
y |
X1 |
X2 |
|||||
1 |
3176 |
2496 |
209 |
7 |
7 |
7 |
0 |
0 |
2 |
3066 |
1962 |
201 |
6 |
6 |
6 |
0 |
0 |
3 |
2941 |
783 |
177 |
5 |
3 |
5 |
-2 |
4 |
4 |
1997 |
1319 |
136 |
4 |
5 |
3 |
2 |
4 |
5 |
1865 |
1142 |
175 |
3 |
4 |
4 |
0 |
0 |
6 |
1194 |
658 |
88 |
2 |
2 |
2 |
0 |
0 |
7 |
518 |
311 |
60 |
1 |
1 |
1 |
0 |
0 |
Тогда коэффициент корреляции Спирмена
,
Т.е. связь очень сильная
Много активов у банка, у которых много кредитов.
Использование эконометрических методов в маркетинговых исследованиях
Процесс маркетинговых исследований состоит из 6 этапов:
54 – количество человек,
Для проверки получаемой
информации и получения