Нейросетевой анализ основных социально-экономических показателей регионов РФ

Автор работы: Пользователь скрыл имя, 14 Января 2014 в 21:39, курсовая работа

Описание работы

Структура потребления населения очень из многих аспектов, который можно проанализировав, сделать определенных выводы. По экономическим соображениям можно даже сказать что он один из самых важных, потому, что проанализировав, сколько стоит тот или иной продукт в определенной субъекте РФ, можно определить живет ли этот регион или округ на продуктах, которые производятся непосредственно внутри региона, или же продукты завозятся из близ лежащих регионов или округов. Так же можно относительно сказать чего больше, а чего меньше потребляет тот или иной субъект РФ.

Файлы: 1 файл

Отче КР Нейроинформатика (Мария).docx

— 752.45 Кб (Скачать файл)

Введение 

Структура потребления населения  очень из многих аспектов,  который  можно проанализировав, сделать  определенных выводы.  По  экономическим  соображениям можно даже сказать  что он один из самых важных, потому, что проанализировав, сколько стоит тот или иной продукт в определенной субъекте РФ,  можно определить живет ли этот регион или округ на продуктах, которые производятся непосредственно внутри региона, или же продукты завозятся из близ лежащих регионов или округов.   Так же  можно относительно сказать чего больше, а чего меньше потребляет тот или иной субъект РФ.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Задание курсовой работы

1. Подготовить выборку на основе статистических данных по выбранной предметной области; перечень тем для проведения макроэкономического анализа указаны в приложении, темы также могут быть предложены студентом самостоятельно.  Требования к выборке: количество объектов – не менее 50; количество признаков – 7-10; значения признаков – числовые.

 

2. Выполнить компонентный  анализ данных с использованием  пакета Statgraphics для предварительной обработки данных с целью определения наиболее значимых для последующего анализа признаков. Предварительно сформировать правила классификации объектов.

3. Провести кластерный  анализ данных с использованием  пакета Statgraphics. Сформулировать правила классификации объектов. По результатам проведенного анализа дополнить обучающую выборку столбцом с номером класса.

4. Провести нейросетевой анализ данных на основе обучения с учителем с использованием пакета Deductor (выполнить решение задач классификации). Использовать режимы обучения и what-if – анализ для отнесения нового объекта к какому-либо классу.

5. Провести нейросетевой анализ данных на основе самоорганизующихся карт Кохонена (обучение без учителя) с использованием пакета Deductor (выполнить решение задач кластеризации). Применение метода самоорганизующихся карт позволяет решать задачи кластеризации и дает возможность подтвердить результаты проведенного компонентного и кластерного анализа данных. What-if – анализ позволяет определить принадлежность  нового объекта к классу.

6. Сопоставить результаты  нейросетевого анализа (п.4.и п.5).

7. Разработать гибридную  (нейро-нечеткую) сеть для принятия решения по управлению объектом в выбранной предметной области. Для этого необходимо составить дополнительную обучающую выборку, структура которой соответствует правилам принятия решений вида «если-то»:

 

№ кластера

Ресурсы

 

Принимаемое решение

ЕСЛИ

   

ТО

 
         

№ кластера – номера кластеров, полученные по результатам нейросетевого анализа данных;

ресурсы – имеющиеся у ЛПР в наличии запасы (финансовые или иные средства), которые могут быть использованы для изменения (улучшения) состояния объекта;

принимаемое решение – набор типовых решений, принимаемых для изменения (улучшения) состояния объекта.


7. Применить разработанную  нейро - нечеткую сеть для различных наборов исходных данных, сделать выводы.

Название предметной области

Структура потребления населения регионов РФ – цены на продукты питания по регионам РФ. Объекты –  регионы России. Признаки – статьи потребления.

Исходные

Исходные данные предоставлены в прилагающихся документах Выборка.xlsx. В данных выборках входными полями являются "Картофель", "Масло", "Молоко", "Мясо", "Овощи", "Рыба", "Сахар", "Фрукты", "Хлеб", "Яйца"  и в качестве информационного поля для распознавания используется поле "Регион".

Таким образом мы получаем 10 признаков, которые характеризуют 80 регионов.

Компонентный анализ

В результате проведения компонентного  анализа в среде Statgraphics нашей выборки была получена сводная характеристика для всех компонент с указанием собственных значений, которая представлена на рисунке 1.

Рис.1. Сводная характеристика.

Как видим из данной характеристики, первая компонента имеет вес в 78% , поэтому мы можем ограничиться анализом только по ней, кроме того первые пять компонент  занимают пости 95% от общего объема данных, что говорит о достаточно хорошей выборке.

Далее был построен график для собственных значений главных  компонент на основании выше перечисленных данных.

 

 


Рис.2. График собственных значений компонент.

Видим, что наклон нашего график свидетельствует о значимом вкладе первых трех компонент, особенно это касается первой, поэтому мы выбираем ее в качестве основной.

Также была произведена запись главных компонент с характеристикой  весов признаков для выявления значимых среди них.

Рис.3. Запись главных компонент с характеристикой весов признаков.

Видно, что в первой компоненте разброс весов не слишком большой, но анализ  будем проводить именно  по  этой главной компоненте. Для наглядного разделения данных на классы была построена трехмерная диаграмма рассеивания- 3D Scatterplot (Рис.4).

Рис.4. Трехмерная диаграмма рассеивания.

Как видно из диаграммы, все  данные можно разделить на три класса:


• в класс 1 входят данные одного региона: Чукотский а.о.;

• в класс 2 входят данные трех регионов: Ямало-Ненецкий а.о., Магаданская область, Камчатский край.

  • в класс 3 входят данные всех остальных регионов.

Как видим Чукотский а.о.  с достаточно сильным значением главной компоненты мешает нам проводить анализ остальных данных, поэтому уберем его из нашей выборки и проведем компонентный анализ снова.

В итоге нового проведения компонентного анализа нашей  урезанной выборки  была получена сводная характеристика для всех компонент с указанием собственных  значений, которая представлена на рисунке 5.

Рис.5. Сводная характеристика.

Как видим из данной характеристики, первая компонента имеет вес теперь в  76% , поэтому мы снова можем ограничиться анализом только по ней, кроме того первые четыре компоненты занимают 91.4% от общего объема данных, что говорит о достаточно хорошей выборке.

Далее был снова построен график для собственных значений главных компонент на основании  выше перечисленных данных.

Рис.6. График собственных значений компонент.

Видим, что наклон нашего график свидетельствует о значимом вкладе первой компоненте, поэтому  оставляем ее в качестве основной.


Также была произведена запись главных компонент с характеристикой  весов признаков для выявления  значимых среди них.

Рис.7. Запись главных компонент с характеристикой весов признаков.

Видно, что разброс весов  остался прежним по сравнению  с предыдущим результатом.

Для наглядного разделения данных на классы была построена трехмерная диаграмма рассеивания- 3D Scatterplot.

Рис.8. Трехмерная диаграмма рассеивания.

Как видно из диаграммы, все  данные можно разделить на два  класса:

    • в класс 1 входят данные трех регионов(так же как и в первом случае): Ямало-Ненецкий а.о.,  Магаданская область, Камчатский край.
    • в класс 2 входят данные всех остальных регионов.

  Уберем регионы с достаточно сильными значениями главных компонент(Ямало-Ненецкий а.о.,  Магаданская область, Камчатский край) и проведем анализ заново.

Рис.9. Трехмерная диаграмма рассеивания.

Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (Чеченскую р., Сахалинскую об., Р-ка Саха, г.Санкт-Петербург, г.Москва, Мурманская об.,Приморский край, р-ка Коми, Хабаровский край, Московская об., Краснодарский край, Калининградская об., Тюменская об., тверская об., р-ка Ка, Вологодская об., Ярославская об.,) и проведем анализ заново.

Рис.10. Трехмерная диаграмма рассеивания.

Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (р-ка Ин, р-ка Ты, р-ка Да) и проведем анализ заново.

Рис.11. Трехмерная диаграмма рассеивания.

Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (Ленинградскую об., р-ка Ка, р-ка Ба, Забайкальский край, Иркутская об., Тульская об., Ростовская об., Карачаево -Черкесаво, Красноярский край, Ханты-Мансийский край) и проведем анализ заново.


Рис.12. Трехмерная диаграмма рассеивания.


Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (Орловская об., Ульяновская об., р-ка Ха, Кабардино-Балкария, р-ка Ал, Удмурдская р-ка, р-ка Се, р-ка Ма, р-ка Та, тамбовская об., р-ка Мо, Курганская об.) и проведем анализ заново.

Рис.13. Трехмерная диаграмма рассеивания.

Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (Чувашская р-ка) и проведем анализ заново.

Рис.14. Трехмерная диаграмма рассеивания.

Как видно на  диаграмме  по прежнему есть регионы с достаточно сильными значениями главных компонент. Поэтому мы опять уберем из выборки таки регионы (Амурская об., ставропольский край, Белгородская об., Астраханская об., Омская об., Новосибирская об., Пензенская об., Самарская об., Свердловская об., Псковская об., Калужская об., Саратовская об.) и проведем анализ заново.

Рис.15. Трехмерная диаграмма рассеивания.

 

В ходе проделанного анализа  все данные можно разделить на 3 класса:

 

Первый класс: , Чеченскую р., Сахалинскую об., Р-ка Саха, г.Санкт-Петербург, г.Москва, Мурманская об.,Приморский край, р-ка Коми, Хабаровский край, Московская об., Краснодарский край, Калининградская об., Тюменская об., тверская об., р-ка Ка, Вологодская об., Ярославская об., р-ка Ин, р-ка Ты, р-ка Да, Ленинградскую об., р-ка Ка, р-ка Ба, Забайкальский край, Иркутская об., Тульская об., Ростовская об., Карачаево -Черкесаво, Красноярский край, Ханты-Мансийский край ,Орловская об., Ульяновская об., р-ка Ха, Кабардино-Балкария, р-ка Ал, Удмурдская р-ка, р-ка Се, р-ка Ма, р-ка Та, тамбовская об., р-ка Мо, Курганская об., Чувашская р-ка, Амурская об., ставропольский край, Белгородская об., Астраханская об., Омская об., Новосибирская об., Пензенская об., Самарская об., Свердловская об., Псковская об., Калужская об., Саратовская об.

Второй класс: Брянская об., Bладимирская об., Bоронежская об., Ивановская об., Костромская об., Курская об., Липецкая об., Рязанская об , Смоленская об., Новгородская об,., Республика Ад, Пермский край, Кировская об., Нижегородская об., Оренбургская об., Челябинская об., р-ка Бурятия,   Алтайский край , Кемеровская об, Томская об.

Третий класс: Чукотский АО, Ямало-Ненецкий АО, Магаданская область, Камчатский край.


 

После чего были проведены  расчеты коэффициентов информативности  и были получены следующие результаты для главной компоненты.

Выберем основные признаки по первой компоненте. Выбор  будем  производить таким образом, что  брать  будем признаки с мах  весами.

 

Ки= 0,3322+0,3322+0,3282+0,3242+0,3242 + 0,3222 +0,3212+0,3132/ 0,2622+0,3132+0,3322+0,3322+0,3282 +0,3212+0,2932++0,3222+0,3242+0,3242 = 0,1102+0,1102+0,1075+0,1049+0,1049+0,10368+0,10304+0,0979/ 0,0686 + 0,0979 + 0,1102 + 0,1102 + 0,1075 + 0,103 + 0,0858 + 0,10368 + 0,1049 + 0,1049=

0,842 / 0,99668 = 0,845

 

В качестве основных признаков  были выбраны: масло, молоко, мясо, овощи, рыба, фрукты, хлеб, яйца.

Так как значение  0,75 < Ки < 0,95  то выбор главные компонент достаточно надежен.

 

Таким образом из полученных расчетов можно вынести следующие правила:

  • Если значение показателя   масло, молоко, мясо, овощи, рыба, фрукты, хлеб, яйца среднее, то класс 1.
  • Если значение показателя  масло, молоко, мясо, овощи, рыба, фрукты, хлеб, яйца низкое, то класс 2.
  • Если значение показателя  масло, молоко, мясо, овощи, рыба, фрукты, хлеб, яйца большое, то класс 3.

Информация о работе Нейросетевой анализ основных социально-экономических показателей регионов РФ