Многомерный анализ зависимости заболеваемости населения РФ от ряда факторов
Автор работы: Пользователь скрыл имя, 02 Мая 2014 в 10:21, курсовая работа
Описание работы
Задачей данной работы является исследование зависимости заболеваемости населения РФ от ряда переменных, которые характеризуют социально-экономическое состояние страны за период с 1995 по 2010 год включительно.
В данной работе используется модель множественной линейной регрессии:
Y – заболеваемость населения, тысяч человек.
Х1 – число больничных учреждений, тысяч.
X2 – численность врачей на 10 000 человек населения.
Х3 – выбросы загрязняющих веществ в атмосферный воздух от автотранспорта, млн. тонн.
Х4 – дефицит денежного дохода малоимущего населения, млн. руб.
X5 – расходы на выплату пособий и социальную помощь, млн. руб.
Содержание работы
1. Постановка задачи 3
2. Модель множественной линейной регрессии 5
2. 1. Задачи множественного корреляционно-регрессионного анализа 5
2. 2. Анализ уравнения множественной линейной регрессии 6
2. 3. Коллинеарность и мультиколлинеарность 7
3. Решение задачи 8
4. Выводы 15
5. Список использованной литературы 17
Файлы: 1 файл
многомерный анализ.doc
— 395.00 Кб (Скачать файл)Содержание
Постановка задачи
Качество жизни населения в большей степени определяется состоянием его здоровья и является наиболее важным показателем благосостояния государства и общества. Актуальность данной темы обусловлена тем, что от качества здоровья населения зависит жизнеспособность всего общества как социального организма и его возможности гармоничного непрерывного роста и социально-экономического развития. Многие проблемы ухудшения качества общественного здоровья определяются негативными социально-бытовыми и производственными факторами, такими, как низкие доходы населения, увеличение дефицита денежных доходов малоимущего населения, неблагоприятная экологическая обстановка и т.д. Задачей данной работы является исследование зависимости заболеваемости населения РФ от ряда переменных, которые характеризуют социально-экономическое состояние страны за период с 1995 по 2010 год включительно.
В данной работе используется модель множественной линейной регрессии:
Y – заболеваемость населения, тысяч человек.
Х1 – число больничных учреждений, тысяч.
X2 – численность врачей на 10 000 человек населения.
Х3 – выбросы загрязняющих веществ в атмосферный воздух от автотранспорта, млн. тонн.
Х4 – дефицит денежного дохода малоимущего населения, млн. руб.
X5 – расходы на выплату пособий и социальную помощь, млн. руб.
Таблица №1
Значения факторов, влияющих на заболеваемость за 1995–2010 год
год |
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
1995 |
100306 |
12.1 |
44.5 |
11.0 |
34900 |
22028 |
1996 |
95013 |
11.8 |
45.7 |
11.3 |
42800 |
42551 |
1997 |
98521 |
11.5 |
46.1 |
11.8 |
46200 |
50555 |
1998 |
97711 |
11.1 |
46.7 |
12.2 |
61500 |
41051 |
1999 |
103069 |
10.9 |
47.1 |
13.5 |
141300 |
55011 |
2000 |
106328 |
10.7 |
47.2 |
13.5 |
199200 |
77744 |
2001 |
104322 |
10.6 |
47.3 |
14.2 |
238600 |
98309 |
2002 |
106742 |
10.3 |
47.9 |
14.4 |
250500 |
127858 |
2003 |
107385 |
10.1 |
48.0 |
14.8 |
235300 |
141319 |
2004 |
106287 |
9.9 |
48.4 |
15.3 |
225700 |
141013 |
2005 |
105886 |
9.5 |
46.9 |
15.4 |
288700 |
314912 |
2006 |
108842 |
7.5 |
48.8 |
15.2 |
277100 |
467523 |
2007 |
109571 |
6.8 |
49.4 |
14.7 |
272100 |
639498 |
2008 |
109590 |
6.5 |
49.8 |
13.6 |
326700 |
829995 |
2009 |
113877 |
6.5 |
49.6 |
13.5 |
354800 |
1167913 |
2010 |
111428 |
6.3 |
50.1 |
13.2 |
375000 |
1498318 |
Данные для работы были взяты с официального сайта Федеральной службы государственной статистики – www.gks.ru. [1]
Модель множественной линейной регрессии
Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными и зависимой переменной, поэтому если в рассматриваемой практической ситуации между собой взаимодействуют несколько факторов, то в этом случае целесообразно рассматривать многофакторный корреляционно-регрессионный анализ.
2. 1. Задачи множественного корреляционно-регрессионного анализа:
- Обоснование взаимосвязи между факторами, влияющими на результативный показатель.
- Выявление степени воздействия каждого факторного признака на результативный показатель при помощи построения множественной линейной регрессии. Определение направления воздействия количественного изменения результативного показателя при изменении каждого факторного признака.
- Количественная оценка взаимосвязи между результативным показателем и всеми факторными признаками.
Основная цель множественного корреляционно-регрессионного анализа – определить функциональную зависимость, которая наилучшим образом описывает взаимосвязи результативного показателя у и факторных признаков.
Модель множественной регрессии – это уравнение, отражающее корреляционную связь между результатом и несколькими факторами.
ММЛР можно записать как:
у = f (x1,x2, …,xn), где у – зависимая переменная (результат);
x1,x2, …,xn – независимые переменные (факторы);
f – некая математическая функция.
Т.к. в работе используется линейная функция, то уравнение ММЛР имеет вид: у = а0 + а1х1 + а2х2 +…+ аnxn + u, где у – результативный показатель; x1,x2, …,xn – факторные признаки; и – случайная составляющая.
2. 2. Анализ уравнения множественной линейной регрессии
- Качество полученной модели оценивается при помощи множественного коэффициента детерминации:
R2yx1x2…x3= R2, где
R2yx1x2…x3 – коэффициент детерминации;
R2 – коэффициент корреляции в квадрате.
- Оценка значимости параметров и переменных.
- Оценка значимости параметров. Для оценки значимости параметров уравнения множественной регрессии используются частные t-критерии Стьюдента:
;
;
- Оценка значимости переменных. Для оценки значимости переменных используется частный F-критерий Фишера.
; =
- Оценка значимости и адекватности уравнения в целом производится при помощи F-критерия Фишера.
n – наблюдений; k – факторных признаков
Fрасчет Ú Fтабл
Fрасчет > Fтабл, то гипотеза отклоняется, а ур–е, в целом, значимо и адекватно.
Fрасчет < Fтабл, то гипотеза принимается, а уравнение, в целом, не значимо.
2. 3. Коллинеарность и мультиколлинеарность
Определение 1
Два факторных признака называют коллинеарными, если между ними существует тесная линейная взаимосвязь.
Определение 2
Несколько факторных признаков называются мультиколлинеарными, если между ними существует тесная линейная взаимосвязь.
Поскольку одним из условий нахождения уравнения множественной регрессии является независимость действия факторов, коллинеарность факторов нарушает это условие, поэтому один из них рекомендуется исключить.
Многие авторы по-разному определяют тесноту взаимосвязи:
Громыко: Елисеева:
Методы устранения колинеарности (мультиколлеарности):
- Исключить из рассматриваемой выборки один или несколько признаков.
- Увеличение выборки (но это не всегда возможно).
- Метод пошаговой регрессии.
- Метод главных компонент. Устраняет межфакторную корреляцию, выделяет несколько главных компонентов. Количество главных компонентов меньше количества факторных признаков.
Включение в модель мультиколлинеарных факторов отрицательно в силу следующих последствий:
- осложняется интерпретация параметров множественной регрессии как величин действия факторов, т.к. факторы коррелированны - параметры регрессии теряют экономический смысл и решение контрольной по эконометрике надо прекращать и рассматривать другие факторы
- оценки параметров ненадежны, получаются большие стандартные ошибки и меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования. [2]
3. Решение задачи
Таблица №1
Значения факторов, влияющих на заболеваемость за 1995–2010 год
год |
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
1995 |
100306 |
12.1 |
44.5 |
11.0 |
34900 |
22028 |
1996 |
95013 |
11.8 |
45.7 |
11.3 |
42800 |
42551 |
1997 |
98521 |
11.5 |
46.1 |
11.8 |
46200 |
50555 |
1998 |
97711 |
11.1 |
46.7 |
12.2 |
61500 |
41051 |
1999 |
103069 |
10.9 |
47.1 |
13.5 |
141300 |
55011 |
2000 |
106328 |
10.7 |
47.2 |
13.5 |
199200 |
77744 |
2001 |
104322 |
10.6 |
47.3 |
14.2 |
238600 |
98309 |
2002 |
106742 |
10.3 |
47.9 |
14.4 |
250500 |
127858 |
2003 |
107385 |
10.1 |
48.0 |
14.8 |
235300 |
141319 |
2004 |
106287 |
9.9 |
48.4 |
15.3 |
225700 |
141013 |
2005 |
105886 |
9.5 |
46.9 |
15.4 |
288700 |
314912 |
2006 |
108842 |
7.5 |
48.8 |
15.2 |
277100 |
467523 |
2007 |
109571 |
6.8 |
49.4 |
14.7 |
272100 |
639498 |
2008 |
109590 |
6.5 |
49.8 |
13.6 |
326700 |
829995 |
2009 |
113877 |
6.5 |
49.6 |
13.5 |
354800 |
1167913 |
2010 |
111428 |
6.3 |
50.1 |
13.2 |
375000 |
1498318 |
Предмодельный анализ по корреляционной матрице
Таблица №2
Корреляционная матрица
Y |
X1 |
X2 |
X3 |
X4 |
X5 | |
Y |
1.00 |
-0.86 |
0.87 |
0.66 |
0.94 |
0.75 |
X1 |
-0.86 |
1.00 |
-0.93 |
-0.46 |
-0.87 |
-0.90 |
X2 |
0.87 |
-0.93 |
1.00 |
0.59 |
0.89 |
0.80 |
X3 |
0.66 |
-0.46 |
0.59 |
1.00 |
0.71 |
0.16 |
X4 |
0.94 |
-0.87 |
0.89 |
0.71 |
1.00 |
0.77 |
X5 |
0.75 |
-0.90 |
0.80 |
0.16 |
0.77 |
1.00 |
Y и X4 имеют самую тесную взаимосвязь, так как X4 имеет самый высокий коэффициент корреляции ryx4 = 0.94, следовательно является самым информативным факторным признаком и означает, что наибольшее влияние на заболеваемость населения оказывает величина дефицита денежных доходов населения.
Между факторными признаками X1, X2, X4, X5 существует тесная попарная взаимосвязь (>0.7), они попарно коллиниарны, значит мультиколлиниарны. Наличие мультиколлинеарности всех факторов может означать, что в результате нельзя будет оценить воздействие каждого фактора в отдельности.
Регрессионный анализ пятифакторной модели
Таблица №3
Пятифакторная модель
Параметры уравнения |
Стандартная ошибка |
t-критерий Стьюдента |
Уровень значимости | |
Константа |
100081.2698 |
54976.6969 |
1.820431 |
0.098707 |
Х1 |
-613.2973 |
1043.1702 |
-0.587917 |
0.569626 |
Х2 |
127.6666 |
1019.9552 |
0.125169 |
0.902870 |
Х3 |
-196.2801 |
1140.5360 |
-0.172095 |
0.866796 |
Х4 |
0.0389 |
0.0191 |
2.034918 |
0.069233 |
X5 |
-0.0016 |
0.0052 |
-0.307716 |
0.764612 |