Сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность

Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 00:55, курсовая работа

Описание работы

Цель. Провести сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность.
Объектом исследования являются муниципальные образования Оренбургской области.
Предметом исследования является состояние социальной напряженности, характеризующееся показателями:
x1 – коэффициент смертности (на 1000 человек);
x2 – коэффициент младенческой смертности (на 1000 человек);
x3 –смертность от инфаркта (на 1000 человек);
x4 –смертность от самоубийств (на 1000 человек);
x5 – смертность от убийств (на 1000 человек).

Содержание работы

Введение………………………………………………………………………..
1 Многомерная классификация муниципальных образований Оренбургской области методом кластерного анализа…………......
Теоретические основы кластерного анализа...…………….......................
1.2 Практическая реализация метода кластерного анализа……….
1.2.1 Классификация муниципальных образований Оренбургской области с помощью иерархических кластер - процедур……………………………...
1.2.2 Классификация муниципальных образований Оренбургской области с помощью итерационных кластер - процедур (методом -средних)……...
1.2.3 Сравнение классификаций………………………………………………
1.2.4 Содержательная интерпретация результатов классификации………..
2 Снижение размерности признакового пространства методом главных компонент………………………………………………………………………
2.1 Теоретические аспекты методом главных компонент ………………….
2.2 Практическая реализация метода главных компонент………………….
3 Многомерная классификация муниципальных образований по выделенным главным компонентам ………………………….......................
3.1 Классификация муниципальных образований по выделенным главным компонентам с помощью иерархических кластер - процедур …...
3.2 Классификация муниципальных образований по выделенным главным компонентам с помощью итерационных кластер - процедур (методом -средних)…………………………………………………………..
3.3Сравнение классификаций ………………………………………………...
3.4 Содержательная интерпретация результатов лучшей классификации...
Заключение……………………………………………………………………..
Список использованных источников……

Файлы: 1 файл

курсовая МСМ.doc

— 1.44 Мб (Скачать файл)

К новым признакам  предъявляются следующие требования:

  1. Высокая информативность;
  2. Их взаимная некоррелированность;
  3. Наименьшее искажение структуры связи между исходными признаками.

Критерием (мерой информативности) в методе главных компонент  (МГК) понимается отношение суммарной  дисперсии новых признаков к  суммарной дисперсии исходных признаков.

Необходимо отобрать столько признаков (z) чтобы суммарная вариация (дисперсия) исходных признаков в большей степени объяснялась вариацией новых признаков.

В экономике число новых признаков  m, выбирается из тех соображений, чтобы мера информативности была не менее 70%.

 

Первой главной компонентой (z1) называется такая линейная комбинация исходных центрированных признаков, которая среди прочих линейных комбинаций обладает наибольшей вариативностью, т.е. дисперсией.

 

zs  - такая линейная комбинация исходных центрированных признаков, которая не коррелирует с предыдущими  (s-1) главными компонентами и среди всех других линейных комбинаций обладает наибольшей дисперсией.

 

Статистический аспект реализации метода главных компонент:

  1. На основе выборочной информации, оценивают ковариационную матрицу:

(где Y – матрица центрированных значений)

Или корреляционную матрицу:

  (где S – матрица центрировано-нормированных значений)

  1. Осуществляется проверка  гипотезы  о диагональности  (∑) или незначимости (R).

 

cov (Xi,Xj) =0 (∑- диагональная)

Ǝ i,j : cov (Xi,Xj) 0  (∑- не диагональная)

 

R=Ek   (R – незначима)

 R Ek   (R –значима)

  1. Осуществляется точечное оценивание собственных чисел.

 

  1. Интервальное оценивание собственных чисел.

Доверительный интервал для собственных чисел:

Если одно из собственных  чисел попадает в доверительные  интервалы других собственных чисел, то это дает основание заподозрить  кратность (равенство) собственных  чисел.

  1. Проверяем гипотезу:

(r – кратность собственных чисел)

Если гипотеза принимается, то это означает  что будут построены r одинаковых главных компонент.

  1. Рассчитывается уровень информативности и проверяется гипотеза о достаточности выделенных m главных компонент.
  2. Непосредственное построение главных компонент (нахождение собственных векторов матрицы или R)
  3. Дается интерпретация главным компонентам по полученной оценке матрицы факторных нагрузок 
  4. Расчет индивидуальных значений главных компонент. Обозначим через F матрицу индивидуальных значений центрировано-нормированных главных компонент (n*m).

Матрица индивидуальных значений F связана с матрицей центрировано-нормированных исходных признаков следующим соотношением:

 

    1. Практическая реализация метода главных компонент

 

 

  1. Поскольку показатели имеют одинаковые единицы измерения, то переходим к решению задачи.

Оценим матрицу парных коэффициентов корреляции:

 

 

x1

x2

x3

x4

x5

x1

1

0,242027

0,267093

0,161915

0,18463

x2

0,242027

1

0,00209

0,170522

-0,08443

x3

0,267093

0,00209

1

0,000489

0,000377

x4

0,161915

0,170522

0,000489

1

0,175785

x5

0,18463

-0,08443

0,000377

0,175785

1


 

 

  1. Проверим гипотезу о незначимости :

H : R=E   (R – незначима)

H : R E    (R –значима)

Так как  > следовательно, Н отклоняется, делаем вывод о значимости корреляционной матрицы R.

  1. Осуществляем точечное оценивание собственных чисел. Вид формы представлен на рисунке 9.

 

Рисунок 9 - Оценки собственных  чисел матрицы парных коэффициентов  корреляции

  1. Рассчитаем интервалы для собственных чисел:

 

Так как оценки собственных чисел попадают в доверительные интервалы других собственных чисел, то нет оснований заподозрить кратность собственных чисел.

Определим вклад каждой главной компоненты в суммарную  дисперсию исходных признаков:

 

Рисунок 10 – Вклад  главных компонент в суммарную  дисперсию исходных признаков

 

 

Из рисунка 10 видим, что  в первом столбце таблицы приведены  оценки собственных чисел, в третьем  – накопленные значения собственных  чисел, во втором и в четвертом  столбцах – относительный вклад  каждой главной компоненты в суммарную  дисперсию и накопленный относительный вклад соответственно. Как видно их рисунка 10 оценка вклада первых двух компонент в суммарную дисперсию исходных признаков составляет 74,99 %.

На основе доверительных  интервалов рассчитаем нижнюю границу  уровня информативности: .

Так как на основании  выборочных данных можно рассчитать лишь оценку критерия информативности, то необходимо проверить гипотезу о

том, что три главные компоненты (m=3) вносят существенный вклад в дисперсию исходных признаков. Нулевая гипотеза и альтернативная гипотеза формулируются следующим образом:

Для проверки нулевой  гипотезы используется статистика :

где

 

При справедливости нулевой  гипотезы статистика имеет распределение с числом степеней свободы   .

Рассчитаем коэффициенты линейного преобразования.

 

Рисунок 11 – График собственных значений

 

 

Рисунок 12 - Коэффициенты линейного преобразования

 

Матрица коэффициентов  линейного преобразования имеет  вид:

 

U =

 

При снижении размерности  признакового пространства до трех главных  компонент следует рассматривать  только три первых столбца матрицы U .

 

 

Проведем анализ матрицы  факторных нагрузок.

 

 

Рисунок 13 - Факторные нагрузки

 

Так как расчеты проводятся на основании матрицы парных коэффициентов  корреляции, то элементы матрицы факторных нагрузок являются парными коэффициентами корреляции исходных признаков и главных компонент. Как видно из таблицы, между исходными признаками и последними двумя главными компонентами не наблюдается тесной связи.

Так как размерность  признакового пространства снижена до трех, то матрица факторных нагрузок имеет размерность 5*3:

 

Первая главная компонента тесно связана (коэффициент корреляции >0,7) с двумя исходными признаками: Х4, Х5. Поэтому первую главную компоненту можно интерпретировать как «Уровень смертности». Вторая главная компонента тесно связана (коэффициент корреляции >0,7) с двумя исходными признаками: Х1 и Х2. Вторую главную компоненту можно интерпретировать как «Смертность самоубийств». Третья главная компонента тесно связана (коэффициент корреляции >0,7) с двумя исходными признаками: Х3.  Ее можно интерпретировать как «Смертность от убийств»

Расположение признаков  в пространстве первых трех главных компонент, представлено на рисунке ниже.

 

 

Рисунок 14 – Распределение признаков в пространстве первых трех главных компонент

 

Для расчета матрицы  индивидуальных значений можно обратиться к рисунку 15.

 

 

Рисунок 15 – Индивидуальные значения главных компонент

 

 

 

 

 

 

 

 

 

3 Многомерная классификация муниципальных образований по выделенным  главным компонентам

 

3.1 Классификация муниципальных образований по выделенным главным компонентам с помощью иерархических кластер - процедур

 

Проведем  классификацию муниципальных образований  по выделенным главным компонентам. На основе индивидуальных значений главных компонент (глава 2 рисунок, 15), необходимо провести классификацию муниципальных образований, иерархическими агломеративными методами кластерного анализа, содержащая результаты кластерного анализа и вертикальную дендрограмму (рисунок 1).

 

 

 

Рисунок 16 – Дендрограмма объединения классов методом «полных связей».

 

          На основе ……Методом «полных связей» при пороговом значении расстояния все города и районы Оренбургской области разбиваются на два класса S1 ={S , S }. К первому классу относятся - 5 , ко второму–42.

          Таблица 6 – Объединение классов методом полной связи

 

Номер класса

Кол-во объектов классе

Состав кластер

S

40

Районы: Октябрьский, Сорочинский, Пономаревский, Шарлыкский, Кваркенский, Гайский

Город: Абдулино

S

7

Города: Орск, Новотроицк, Кувандык, Бугуруслан, Оренбург,  Ясный, Бузулук, Гай, Сорочинск, Соль-Илецк, Медногорск.

Районы: Бузулукский, Грачевский, Курманаевский, Бугурусланский, Новосергиевский, Светлинский, Новоорский, Матвеевский, Илекский, Кувандыкский, Переволоцкий, Александровский, Тоцкий, Саракташский, Тюльганский, Северный, Беляевский, Алексеевский,  Ясненский, Оренбургский, кпасногвардейский, Ташлинский, акбулакский, Домбаровский, Соль-Илецкий, Сакмарский, Первомайский, Адамовский, Абдулинский.


 

Таблица 7 – Средние значения признаков в кластерах, полученных

методом «полных связей»

 

Номер кластера

Среднее значение коэффициента смертности

Среднее значение коэффициента младенческой

смертности 

Среднее значение

смертности от инфаркта

0,55

0,06

-1,48

-0,13

0,03

0,27


 

 

 

          Рисунок 17 – График средних значений признаков в каждом кластере

 

Анализируя график средних  значений в классах, можно сделать  следующие выводы:

Первый  класс характеризуется низким уровнем смертности от инфаркта, в сравнении со вторым. Что касается коэффициента смертности, то в первом классе он достаточно высок.

Второй класс характеризуется  низким уровнем коэффициента смертности, в сравнении с первым классом. Также низкий уровень в сравнении с первым классом в значении смертности от убийств. Совпадают значения младенческой смертности.

С помощью метода «полных связей» получено достаточно неравномерное распределение объектов по классам, так в первый класс вошло 40 объектов, в то время как в второй класс - 7 объектов. Данный недостаток можно устранить методом Уорда.

Информация о работе Сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность