Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 00:55, курсовая работа
Цель. Провести сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность.
Объектом исследования являются муниципальные образования Оренбургской области.
Предметом исследования является состояние социальной напряженности, характеризующееся показателями:
x1 – коэффициент смертности (на 1000 человек);
x2 – коэффициент младенческой смертности (на 1000 человек);
x3 –смертность от инфаркта (на 1000 человек);
x4 –смертность от самоубийств (на 1000 человек);
x5 – смертность от убийств (на 1000 человек).
Введение………………………………………………………………………..
1 Многомерная классификация муниципальных образований Оренбургской области методом кластерного анализа…………......
Теоретические основы кластерного анализа...…………….......................
1.2 Практическая реализация метода кластерного анализа……….
1.2.1 Классификация муниципальных образований Оренбургской области с помощью иерархических кластер - процедур……………………………...
1.2.2 Классификация муниципальных образований Оренбургской области с помощью итерационных кластер - процедур (методом -средних)……...
1.2.3 Сравнение классификаций………………………………………………
1.2.4 Содержательная интерпретация результатов классификации………..
2 Снижение размерности признакового пространства методом главных компонент………………………………………………………………………
2.1 Теоретические аспекты методом главных компонент ………………….
2.2 Практическая реализация метода главных компонент………………….
3 Многомерная классификация муниципальных образований по выделенным главным компонентам ………………………….......................
3.1 Классификация муниципальных образований по выделенным главным компонентам с помощью иерархических кластер - процедур …...
3.2 Классификация муниципальных образований по выделенным главным компонентам с помощью итерационных кластер - процедур (методом -средних)…………………………………………………………..
3.3Сравнение классификаций ………………………………………………...
3.4 Содержательная интерпретация результатов лучшей классификации...
Заключение……………………………………………………………………..
Список использованных источников……
Таблица 2 – Средние значения признаков в кластерах, полученных
методом «полных связей»
Номер кластера |
Среднее значение коэффициента смертности |
Среднее значение Младенческой смертности |
Среднее значение смертности от инфаркта |
Среднее значение Смертности от самоубийств |
Среднее значение Смертности от убийств |
|
14,46 |
6,07 |
39,74 |
47,67 |
17,91 |
|
16,24 |
19,58 |
39,47 |
65,47 |
13,83 |
|
19,9 |
15,6 |
84,5 |
48,25 |
34,6 |
Рисунок 2 – График средних значений признаков в каждом кластере
Анализируя график средних значений в классах, можно сделать следующие выводы:
Первый класс схож со вторым и с третьим показателем только по показателям младенческой смертности ( X2 ), который находится на достаточно низком уровне от значений смертности от инфаркта (Х3) и смертности от самоубийств (Х4). По всем остальным показателям объекты первого класса можно сказать, что среднее значение коэффициента смертности (Х1) ниже среднего значения третьего кластера.
Объект второго класса, куда вошло большинство городов Оренбургской области, характеризуется высоким средним значением смертности от инфаркта (X3) и средним значением смертности от самоубийств (X 4 ) , который выше первого и третьего кластера. В тоже время объекты данного класса характеризуются низким уровнем смертности от убийств (Х5).
Третий класс характеризуется по сравнению с остальными классами наименьшими средними значением всех показателей.
С помощью метода «полных связей» получено достаточно неравномерное распределение объектов по классам, так в первый класс вошло 8 объектов, в то время как во второй класс -29 объектов. Данный недостаток можно устранить методом Уорда.
Объединения классов методом Уорда
Вертикальная дендрограмма объединения классов методом Уорда представлена на рисунке 3.
Рисунок 3 – Дендрограмма объединения классов методом Уорда
На все объекты разделяются на 3 класса, состав которых приведен в таблице 3.
Таблица 3 – Объединение классов методом Уорда
Номер кластера |
Кол-во объектов |
Состав кластер |
|
23 |
Города: Гай, Бузулук, Бугуруслан, Оренбург, Ясный,Соль-Илецк, Сорочинск Районы: Северный, Курманаевский, Светлинский, Кувандыкский, Илекский, Грачевский, Тоцкий, Переволоцкий, Александровский, Октябрьский, Беляевский, Тюлбганский, Красногвардейский, Оренбургский, Ташлинский, Акбулакский |
|
18 |
Города: Абдулино, Медногорск, Кувандык Районы:Шарлыкский, Сорочинский, Пономаревский, Кваркенский, Ясненский, Новоорский, Матвеевский, Алексеевский, Гайский, Соль-Илецкий, Саракташский, Домбаровский, Сакмарский, Переволоцкий, Адамовский |
|
6 |
Города : Орск, Новотроицк Районы: Бузулукский, Бугурусланский, Новосергиевский, Абдулинский |
Таблица 4 – Средние значения признаков в кластерах, полученных
методом Уорда
Номер кластера |
Среднее значение коэффициента смертности |
Среднее значение Младенческой смертности |
Среднее значение смертности от инфаркта |
Среднее значение Смертности от самоубийств |
Среднее значение Смертности от убийств |
|
14,06 |
5,5 |
41,06 |
41,41 |
13,75 |
|
15,77 |
13,26 |
38,89 |
48,28 |
17,51 |
|
18,5 |
11,17 |
57,3 |
44,88 |
32,18 |
Рисунок 4 – График средних значений признаков в каждом кластере
Анализируя график средних значений в классах, можно сделать следующие выводы:
Первый класс социальной напряженности Оренбургской области, преимущественно города и примыкающие к ним районы, характеризуется наибольшим средним значением смертности от инфаркта (Х4) и наименьшим средним значением смертности младенческой смертности (X1).
Объекты второго класса, также как и третьего класса, характеризуются наибольшим средним значением смертности от самоубийств (Х4), но достаточно низким значением младенческой смертности ( Х2). Самое низкое среднее значение зафиксировано для такого показателя, как младенческая смертность (X1).
Третий класс объектов характеризуется наибольшим средним значением такого показателя, как смертность от инфаркта (Х2).
Протокол объединения кластеров методом «полных связей», график изменения между объединенными классами и матрица расстояний представлены в приложении В, рисунок 1,2 и 3.
1.2.2 Классификация муниципальных образований Оренбургской области с помощью итерационных кластер - процедур (методом -средних)
Метод К - средних позволяет получить более устойчивое разбиение, но требует задания некоторых начальных условий.
Далее рассчитываются значения о количестве объектов в кластерах, состав кластеров, а также евклидово расстояние от объектов до центра соответствующего класса показателей в каждом классе.
Классификация муниципальных образований на три класса методом К-
средних представлена в таблице 5.
Таблица 5 – Объединение классов методом к-средних
Номер кластера |
Кол-во объектов |
Состав кластер |
|
13 |
Города: Медногорск, Новотроицк, Орск Районы: Абдулинский, Бугурусланский, Бузулукский, Гайский, Домбаровский, Кваркенский, Новосергиевский, Пономаревский, Саракташский, Сорочинский |
|
24 |
Города: Бугуруслан, Бузулук, Гай, Оренбург, Соль-Илецк, Сорочинск, Ясный Районы: Адамовский, Акбулакский, Александровский, Беляевский, Грачевский, Красногвардейский, Курманаевский, Октябрьский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Соль-Илецкий, Ташлинский, Тоцкий, Тюлбганский, Шарлыкский |
|
10 |
Города : Абдулино, Кувандык Районы : Асекеевский, Илекский, Кувандыкский, Матвеевский, Новоорский, Светлинский, Северный, Ясненский |
Рисунок 5 – Средние значения признаков в классах
Расстояния между классами указано в приложении В, рисунок 4. наименьшее расстояние наблюдается между первым и третим классами.
Рисунок 6 – Расстояния между классами
Рисунок 7 – График средних значений признаков в каждом кластере
Результаты расчетов описательных статистик для каждого кластера представлены в приложении В, рисунок 5.
1.2.3 Сравнение классификаций
С помощью метода «полных связей», метода Уорда и метода К-средних были получены классификации С1,С2 соответственно. Для выбора лучшей классификации можно воспользоваться функционалами качества.
Рассчитаем функционал качества классификации, полученной методом Уорда.
Рисунок 8– Матрицы расстояний
Результаты расчетов суммы квадратов расстояний указаны в приложении В, рисунок 6.
Тогда значение функционала качества для классификации, полученной методом Уорда, рассчитывается следующим образом:
Аналогичным образом рассчитаем значение функционала качества для классификации, полученной методом «полных связей»
Значение функционала качества для классификации, полученной методом К-средних рассчитаем на основе таблиц представленных на рисунках 5,6.
По выбранному функционалу
качества наилучшей является классификация
1.2.4 Содержательная интерпретация результатов классификации
Первый класс социальной напряженности Оренбургской области, преимущественно города : Орск, Новотроицк, Бузулук, Бугуруслан, Соль-Илецк, Оренбург, Ясный, Кувандык, Сорочинск, Гай, а также районы: Бузулукский, Бугурусланский, Ясненский, Новоорский, Матвеевский, Асекеевский, Тоцкий, Переволоцкий, Северный, Курманаевский, Светлинский, Кувандыкский, Илекский, Саракташский, Соль-Илецкий, Сакмарский, Тюлбганский, Красногвардейский, Октябрьский, Беляевский, Грачевский, Александровский, Оренбургский, Ташлинский, Акбулакский, Первомайский, Адамовский характеризуются наибольшим значением среди всех остальных классов таких показателей как «смертность от самоубийств (Х2)», «Смертность от убийств (Х5)» и низким показателем «Младенческой смертности (X2)».
Объекты второго класса, такие как, районы - города: Бугуруслан, Бузулук, Гай, Оренбург, Соль-Илецк, Сорочинск, Ясный; районы: Адамовский, Акбулакский, Александровский, Беляевский, Грачевский, Красногвардейский, Курманаевский, Октябрьский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Соль-Илецкий, Ташлинский, Тоцкий, Тюльганский, Шарлыкский характеризуются наибольшим средним значением среди отсальных классов такого показателя как «младенческая смертность (Х2)»и самым низким значением показателя «коэффициент смертности ( X1)».
Третий класс объектов города: Абдулино,Кувандык, районы: Асекеевский, Илекский, Кувандыкский, Матвеевский, Новоорский, Светлинский, Северный, Ясненский характеризуется наибольшим средним значением такого показателя, как «младенческая смертность ( Х 2). Что касается среднего значения «смертности от самоубийств ( Х4 )», то для городов и районов третьего класса оно значительно ниже, чем для объектов первого и второго класса.
2 Снижение размерности признакового пространства методом главных компонент
2.1 Теоретические аспекты методом главных компонент
Обработка многомерных статистических данных, включающая точечное и интервальное оценивание параметров, задача классификации, моделирование зависимости (регрессионный анализ), создание признакового пространства и их интерпретация, а также хранение данных, связаны с определенными трудностями, в частности вычислительного характера.
Решение этих задач значительно упрощается, если исходные данные подвергнуты сжатию размерности признакового пространства. Такое сжатие возможно, поскольку в большинстве случаев признаки взаимозависимые (коррелированны) и следует что данные избыточные с точки зрения информации.
Необходимость снижения размерности признакового пространства:
1)Необходимость наглядного представления рассматриваемых признаков.
2) Стремление к упрощенным данным (моделям).
3) Упрощение процедуры хранения информации.
Обоснование возможности снижения размерности признакового пространства:
Постановка задачи метода главных компонент
Исходим из того что изучаемое наблюдение характеризуется к-признаками х1,х2,…,хк
С целью снижения размерности признакового пространства необходимо перейти к новым признакам z1 , z2,…., zm , m<k (m<<k)