Использование дисперсионного анализа при факторном исследовании экономических явлений и процессов

Автор работы: Пользователь скрыл имя, 29 Июня 2014 в 14:28, курсовая работа

Описание работы

Целью работы является ознакомление с дисперсионным анализом и апробация его основных положений на статистических данных, собранных по Республике Беларусь.
Предполагается решение следующих задач:
- изучение основных положений факторного анализа и типов факторов;
- изучение основных положений и моделей дисперсионного анализа;
- изучение роли и места дисперсионного анализа при статистических исследованиях;
- практическое применение дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.

Файлы: 1 файл

24468-стат.doc

— 883.50 Кб (Скачать файл)

 

Одномерный дисперсионный анализ исследует влияние одной или нескольких независимых переменных на одну зависимую. Одномерный дисперсионный анализ может быть однофакторным (one-way ANOVA) или многофакторным (n-way ANOVA). В первом случае есть только одна независимая переменная; во втором — несколько.

Необходимо отметить, что для проведения одномерного дисперсионного анализа на практике (в исследованиях социально-экономических процессов) существует одно весьма существенное ограничение. При увеличении количества факторов (то есть независимых переменных) в модели сложность интерпретации результатов расчета возрастает многократно. Так, однофакторный анализ является наиболее простым. Мультифакторные модели в большинстве своем могут успешно интерпретироваться только квалифицированными исследователями.

Исследуем зависимость между процентным соотношением мужчин (ud_ves_M) среди населения Беларуси и областью (obl). Переменная obl представлена категориями (1 – Брестская, 2 – Витебска, 3 – Гомельская, 4 – Гродненская, 5 – Минская, 6 – Могилевская). Проведем однофакторный одномерный дисперсионный анализ и установим, насколько значимо различается удельный вес мужчин в каждой области. Данные взяты из [10].

В качестве зависимой переменной в дисперсионном анализе выступает основание сегментирования по группам, то есть та переменная, которая и определяет различия между категориями независимой переменной. В область для независимых переменных Fixed Factor(s) поместим obl. Фиксированными факторами называют переменные, уровни которых охватывают все возможные состояния этой переменной. Случайные факторы представляют переменные, уровни которых охватывают лишь часть из всего многообразия возможных состояний.

Модель дисперсионного анализа — это математическое соотношение, в котором каждая переменная представлена в виде суммы среднего значения и ошибки. В полнофакторной модели среднее значение каждого наблюдения представлено в виде генерального среднего и суммы вклада всех главных "эффектов" (факторов влияния), помимо которых производится также расчёт всех взаимодействий между факторами.

Установить равенство/неравенство дисперсий позволяет тест Levene. В общем случае мы не знаем, равны ли дисперсии и, соответственно, какую группу статистических тестов следует использовать. Поэтому рекомендуется сразу вывести тесты для равных и неравных дисперсий, чтобы сократить количество итераций при проведении дисперсионного анализа. Ограничимся наиболее популярным и универсальным тестом Scheffe для равных дисперсий и тестом Tamhane’s T2 — для неравных дисперсий [9].

Первой практически значимой таблицей является результат теста на равенство дисперсий зависимой и независимых переменных Levene’s Test of Equality of Error Variances (рисунок 4.1). В столбце Sig. данной таблицы содержится единственное интересующее нас значение — это статистическая значимость тестовой статистики F. Если значение в данном столбце показывает незначимость F — значит, дисперсии равны, и в дальнейшем мы будем анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий). В противном случае, если F-статистика значима, — дисперсии не равны, и при анализе различий между группами следует использовать тест Tamhane’s T2 (предполагающий неравенство дисперсий). Как вы видите на рисунке, статистика F значима (Sig. = 0,034) — и, следовательно, можно сделать вывод о неравенстве дисперсий.

 

Levene's Test of Equality of Error Variancesa

Dependent Variable:ud_ves_M

 

F

df1

df2

Sig.

2,647

5

48

,034

Tests the null hypothesis that the error variance of the dependent variable is equal across groups.

a. Design: Intercept + obl

 

 

Рисунок 4.1 – Таблица Levene’s Test of Equality of Error Variances

Примечание – Источник: [собственная разработка]

 

Следующая таблица — это Tests of Between-Subjects Effects (рисунок 4.2). Данная таблица является центральной в выводимых результатах дисперсионного анализа и показывает наличие/отсутствие значимых различий между категориями исследуемых переменных. Первое, на что следует обратить внимание при анализе описываемой таблицы, — это величина R2, отражающая долю совокупной дисперсии в зависимой переменной. Другими словами, это та часть вариации зависимой переменной, которую можно объяснить на основании независимой переменной. В данном случае величина R2 достаточно велика, следовательно, около 80% вариации зависимой переменной можно объяснить независимой переменной.

 

Tests of Between-Subjects Effects

Dependent Variable:ud_ves_M

       

Source

Type III Sum of Squares

df

Mean Square

F

Sig.

Corrected Model

5,166a

5

1,033

39,639

,000

Intercept

118816,463

1

118816,463

4,559E6

,000

obl

5,166

5

1,033

39,639

,000

Error

1,251

48

,026

   

Total

118822,880

54

     

Corrected Total

6,417

53

     

a. R Squared = ,805 (Adjusted R Squared = ,785)

   

Рисунок 4.2 – Таблица Tests of Between-Subjects Effects

Примечание – Источник: [собственная разработка]

 

Второе, на что обращают внимание исследователи при интерпретации таблицы Tests of Between-Subjects Effects, — это собственно значимость различия между группами независимой переменной. Этот вывод следует из значения на пересечении строки, содержащей соответствующую независимую переменную, и столбца Sig. Как вы видите на рисунке, имеет место статистически высоко значимое различие между различными областями по удельному весу мужчин (значимость F-статистики у переменной obl < 0,00).

После того как мы установили наличие статистически значимого различия между областями, необходимо определить, какие из 6 имеющихся групп отличаются от остальных и каким образом (в большую или в меньшую сторону). Сделаем это при помощи таблицы Multiple Comparisons, представленной на рисунке 4.3. При интерпретации данной таблицы прежде всего вспомним результаты теста Levene. Так, в нашем случае на основании данного теста дисперсии оказались неравными, и поэтому в данной таблице мы будем рассматривать только ту ее часть, в которой приведены расчеты по методу Tamhane.

 

Multiple Comparisons

Dependent Variable:ud_ves_M

       
 

(I) obl

(J) obl

Mean Difference (I-J)

Std. Error

Sig.

95% Confidence Interval

 

Lower Bound

Upper Bound

Tamhane

1

2

,6333*

,03287

,000

,5169

,7498

3

,7222*

,03287

,000

,6058

,8387

4

,2444*

,05720

,015

,0384

,4504

5

-,1111

,11811

,999

-,5774

,3552

6

,1333*

,03287

,019

,0169

,2498

2

1

-,6333*

,03287

,000

-,7498

-,5169

3

,0889*

,02485

,037

,0036

,1742

4

-,3889*

,05300

,000

-,5913

-,1865

5

-,7444*

,11614

,003

-1,2133

-,2756

6

-,5000*

,02485

,000

-,5853

-,4147

3

1

-,7222*

,03287

,000

-,8387

-,6058

2

-,0889*

,02485

,037

-,1742

-,0036

4

-,4778*

,05300

,000

-,6802

-,2754

5

-,8333*

,11614

,001

-1,3021

-,3645

6

-,5889*

,02485

,000

-,6742

-,5036

4

1

-,2444*

,05720

,015

-,4504

-,0384

2

,3889*

,05300

,000

,1865

,5913

3

,4778*

,05300

,000

,2754

,6802

5

-,3556

,12522

,217

-,8215

,1103

6

-,1111

,05300

,621

-,3135

,0913

5

1

,1111

,11811

,999

-,3552

,5774

2

,7444*

,11614

,003

,2756

1,2133

3

,8333*

,11614

,001

,3645

1,3021

4

,3556

,12522

,217

-,1103

,8215

6

,2444

,11614

,646

-,2244

,7133

6

1

-,1333*

,03287

,019

-,2498

-,0169

2

,5000*

,02485

,000

,4147

,5853

3

,5889*

,02485

,000

,5036

,6742

4

,1111

,05300

,621

-,0913

,3135

5

-,2444

,11614

,646

-,7133

,2244

Based on observed means.

The error term is Mean Square(Error) = ,026.

     

*. The mean difference is significant at the ,05 level.

     

 

Рисунок 4.3 – Таблица Multiple Comparisons

Примечание – Источник: [собственная разработка]

Итак, в первой части таблицы мы видим сравнение различий между каждой из 6 областей с остальными областями. На основе этих данных и определяются та или те группы, которые значимо отличаются от других. Так, из столбца Sig. (статистическая значимость) мы видим, что только вторая и третья группы статистически значимо отличаются от всех остальных. Остальные целевые группы не отличаются друг от друга. При этом из столбца Mean Difference можно видеть, насколько отличается среднее значение той или иной группы от среднего значения других групп (звездочками отмечены значимые различия при  95%-ном доверительном уровне).

Также из рассматриваемой таблицы можно сделать вывод о направлении различия между выделенными категориями. Так, в нашем случае мы можем заключить, что в Витебской и Гомельской областях удельный вес мужчин ниже, чем в других областях.

Рассмотрим таблицу Homogeneous Subsets (рисунок 4.4).

 

ud_ves_M

 

obl

N

Subset

 

1

2

3

Scheffea

3

9

46,4556

   

2

9

46,5444

   

4

9

 

46,9333

 

6

9

 

47,0444

47,0444

1

9

 

47,1778

47,1778

5

9

   

47,2889

Sig.

 

,926

,086

,086

The error term is Mean Square(Error) = ,026.

a. Uses Harmonic Mean Sample Size = 9,000.

 

 

Рисунок 4.4 – Таблица Homogeneous Subsets

Примечание – Источник: [собственная разработка]

 

В этой таблице представлена однозначная картина различий между группами независимой переменной. Здесь все группы разделены на три категории на основании различий в удельном весе мужчин. В первую категорию входит целевая группа из Гомельской и Витебской областей; во вторую — Брестская, Гродненская и Могилевская,  в третью – Могилевская, Брестская, Минская. Если бы оказалось, что статистически значимых различий в удельном весе мужчин в различных областях не наблюдается, все группы независимой переменной были бы отнесены к одной категории (Subset был бы только 1).

 

4.2  Статистическое исследование удельного веса занятых на предприятиях государственной формы собственности по областям Республики Беларусь с помощью двухфакторного дисперсионного анализа

 

Рассмотрим теперь ситуацию, когда необходимо исследовать сразу две независимые переменные (и взаимодействия между ними), то есть выполнить двухфакторный одномерный дисперсионный анализ.

Исходные данные останутся такими же, как в предыдущем случае, однако теперь мы будем устанавливать различие в занятых на предприятиях государственной формы собственности в зависимости от области и удельного веса мужчин. Переменная ud_ves_f_sob будет представлена тремя группами – 1 – до 50%, 2 – от 50% до 60%, 3 – больше 60%.

При проведении многофакторного анализа (двухфакторной и более) зададим исследование всех возможных взаимодействий между независимыми переменными (в нашем случае будет установлено различие не только между областями и удельным весом мужчин, но и на основе взаимодействия). В диалоговом окне Options необходимо добавить переменную ud_ves_M, а также ее взаимодействие с переменной — ud_ves_M * obl, что позволит вывести средние значения по каждой группе при определении направления различия между ними.

Тест Левене на равенство дисперсий показывает, значимый результат со значением вероятности ошибки р = 0,009. Это означает, что отсутствует однородность дисперсий между группами, которая наряду с нормальным распределением значений выборки, является основной предпосылкой для возможности проведения дисперсионного анализа (рисунок 4.5).  

 

Levene's Test of Equality of Error Variancesa

Dependent Variable:ud_ves_f_sob

F

df1

df2

Sig.

53,651

16

37

,000

Tests the null hypothesis that the error variance of the dependent variable is equal across groups.

a. Design: Intercept + obl + ud_ves_M + obl * ud_ves_M


 

Рисунок 4.5 – Таблица Levene’s Test of Equality of Error Variances

Примечание – Источник: [собственная разработка]

 

В таблице Tests of Between-Subjects Effects появились результаты расчета значимости F-статистики для переменной ud_ves_M, а также для взаимодействия ud_ves_M * obl. Как видно из рисунка 4.6, удельный вес мужчин оказывает воздействие на количество занятых на предприятиях государственной формы собственности. Однако совместное воздействие переменных ud_ves_M * obl не является статистически значимым. При этом, несмотря на неравенство дисперсий, переменная obl оказывает значимое влияние на зависимую переменную (Sig. = 0,000), то удельный вес занятых на предприятиях государственной формы собственности разнится по областям.

Информация о работе Использование дисперсионного анализа при факторном исследовании экономических явлений и процессов