Автор работы: Пользователь скрыл имя, 20 Мая 2015 в 10:45, курсовая работа
В настоящее время термин статистика употребляется в 4 значениях:
наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием – учебный предмет в высших и средних специальных учебных заведений;
совокупность цифровых сведений, характеризующих состояние массовых явлений и процессов общественной жизни; статистические данные, представляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемых в сборниках, справочниках, периодической печати и в сети Интернет, которые являются результатом статистической работы;
отрасль практической деятельности («статистический учет») по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни;
Рисунок 13—Поставим метки в первой строке для отображения названий рядов
Результаты расчетов поместятся на новом листе:
ДТП, y |
Погибло, x1 |
Ранено, x2 |
Тяжесть последствий, x3 | |
ДТП, y |
1 |
|||
Погибло, x1 |
0,999442355 |
1 |
||
Ранено, x2 |
0,999890704 |
0,999679 |
1 |
|
Тяжесть последствий, x3 |
0,861209986 |
0,861071 |
0,85586461 |
1 |
Анализ матрицы коэффициентов парной корреляции показывает, что все ряды тесно коррелируют (зависят) между собой. Попробуем разобраться в полученных данных. Очевидно, что существует прямая связь между y – ДТП, и остальными факторами. Чем больше ДТП, тем больше погибает людей, больше человек получают ранения (коэффициенты очень близки к 1). Для связи y-x3 это не столь очевидно, но достаточно сильно. Чем больше ДТП, тем более увеличивается вероятность того, что последствия тяжести также будут увеличиваться. Это означает, что существует какой-то процент тяжести последствий в зависимости от количества ДТП. Не можем же мы ожидать, что будет много ДТП, но все они окажутся «легкими».
Между «погибло» и «ранено» также существует какая-то сильная устойчивая связь. Это означает, что существует какой-то устойчивый процент смертности/ранения людей, попавших в ДТП. Не стоит ожидать, что все люди, попавшие в ДТП выживут. Это означает, что необходимо сводить на нет количество аварий, поскольку не существует способа сделать так, что если авария и случилась, то все в ней выживут. Проанализируем последний момент. Найдем зависимость между x1 и x2. Вернее, между суммой x1+ x2 – грубо говоря, количества человек, попавших в аварии , и между признаком «погибло». Типовой расчет линии регрессии можно провести ручным способом с выведением всех данных, можно построить линию регрессии на диаграмме Excel и по ней построить линию тренда. Выбираем оба варианта. Подготовим исходные данные:
Таблица 7
Всего людей, побывавших в авариях |
Из них погибло |
7918,297297 |
831,7432432 |
7280,066667 |
741,1066667 |
6651,546667 |
650,6666667 |
6577,605263 |
644,8947368 |
Для облегчения расчетов составим расчетную таблицу и по ней найдем данные по формулам, приведенным выше:
Таблица 8
Из таблицы видно, что
Подготовив исходные данные найдём rxy
Так как коэффициент корреляции близок к единице, а среднеквадратическое уклонение нелинейной составляющей зависимости Sz, связывающей X и Y мало, то эту зависимость можно считать линейной.
Найдем выборочный коэффициент регрессии по формуле:
Составим выборочное уравнение регрессии по формуле:
Коэффициент регрессии характеризует изменение оценок по данной совокупности на единицу. Процент погибших в автомобильных катастрофах среди всех побывавших в катастрофах составляет 0,1409. Иначе говоря, если приводится статистика аварий в количестве ДТП, то можно умножить эту цифру на 0,14 и получим количество погибших людей.
Рассчитаем линейный коэффициент парной корреляции
Связь очень сильная, почти достоверная, прямая. Определим коэффициент детерминации
Вариация результата на 99% объясняется вариацией фактора х.
Проверим значимость выборочного коэффициента корреляции при a=0.05 и числу степеней свободы k=4-2=2. Вычислим наблюдаемое значение критерия Стьюдента:
По таблице критических точек распределения Стьюдента, по уровню значимости α=0.05 и числу степеней свободы k=4-2=4 найдем критическую точку tкр.(0,05;2)=4.30.
Так как Тнабл.= >|tкр|.= - принимаем гипотезу о равенстве нулю генерального коэффициента корреляции. Следовательно, Х и Y имеют тесную корреляционную зависимость.
Выполним прогноз погибших в ДТП в 2012, 2013 году по выведенному уравнению регрессии. Ранее мы уже получали прогнозные значения количества ДТП на 2012, 2013 год и . Тогда стоит ожидать, что число погибших в авариях для этих цифр:
Оценим точность прогноза, рассчитав ошибку прогноза и его доверительный интервал:
t здесь - это значение аргумента интегральной функции Лапласа, при котором
находим t по таблице значений интегральной функции Лапласа:
Точность нашего прогноза составит . Доверительный интервал прогноза на 2012 год таков
Построенная диаграмма также показала почти 100% зависимость. Повторим выведенное уравнение регрессии:
y = 0,1409x - 284,07
R2 = 0,9995
Это уравнение означает, что если Вы попали в аварию, то вероятность того, что Вы можете погибнуть в ней составляет 0,1409 и этому факту можно доверять на 0,9995%.
Рисунок 14 – Добавленная линейная линия тренда совпала с диаграммой
Итак, обобщим полученные уравнения:
Подставляя выражения для DTP во второе уравнение, получаем количество погибших в зависимости от номера года.
Иначе говоря, если не принимать решительных мер по снижению аварийности люди будут гибнуть и дальше. Эти цифры погибших не по всей России, а в пределах только какой-то области или края. О сравнении статистики смертности ДТП с другими смертельными заболеваниями в прессе говорится уже давно.
Вернемся к множественной корреляции и проведем регрессионный анализ для данных, взятых по таблице:
Таблица 9
Погибло, y |
Ранено, x1 |
Тяжесть последствий, x2 |
ДТП, x3 |
831,743243 |
7086,5541 |
10,69324324 |
5686,148649 |
741,106667 |
6538,96 |
10,71733333 |
5256,28 |
650,666667 |
6000,88 |
10,088 |
4810,013333 |
644,894737 |
5932,7105 |
10,27105263 |
4751,618421 |
Для этого воспользуемся функцией «Сервис – анализ данных - регрессия».
Рисунок 15 – Вызов окна регрессии.
Рисунок 16 –Параметры окна вызова множественной регрессии
Основное данное, которое мы можем получить из пакета анализа множественной регрессии – это коэффициенты ai и коэффициент b уравнения множественной регрессии:
а1=0,517774487
а2=18,47318947
а3= -0,447691716
b=-489,3903082
Регрессионная статистика |
|||||||
Множественный R |
1! |
||||||
R-квадрат |
1 |
||||||
Нормированный R-квадрат |
65535 |
||||||
Стандартная ошибка |
0 |
||||||
Наблюдения |
4 |
||||||
Дисперсионный анализ |
|||||||
df |
SS |
MS |
F |
Значимость F |
|||
Регрессия |
3 |
23346,38 |
7782,127 |
0 |
1 |
||
Остаток |
0 |
3,49E-19 |
65535 |
||||
Итого |
3 |
23346,38 |
|||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% | |
Y-пересечение |
-489,3903082 |
0 |
65535 |
-489,39 |
-489,390308 |
-489,39031 |
-489,3903082 |
Ранено, x1 |
0,517774487 |
0 |
65535 |
0,517774 |
0,517774487 |
0,51777449 |
0,517774487 |
Тяжесть последствий, x2 |
18,47318947 |
0 |
65535 |
18,47319 |
18,47318947 |
18,4731895 |
18,47318947 |
ДТП, x3 |
-0,447691716 |
0 |
65535 |
-0,44769 |
-0,44769172 |
-0,4476917 |
-0,447691716 |
Как видно из коэффициентов этого уравнения число погибших в авариях главным образом зависит от тяжести ДТП. То есть прослеживается очень сильная связь между x3 (последствия тяжести и y – число погибших), коэффициент 18. Это означает, что можно далее исследовать связь между количеством ДТП и степенью тяжести ДТП.
При исследовании выборочных рядов на зависимости между друг другом, то коэффициенты корреляции в этой работе не опускались ниже 0,85, что случается крайне редко. Это значит, что статистика аварий не подвержена каким-то случайным факторам.
Множественный коэффициент корреляции равен 1. Это означает достоверную связь, лишенную какой – либо случайности. Когда человек садится за руль, то он надеется, что не он попадет в аварию, а если попадет, то выйдет оттуда целым и невредимым. Увы, цифры статистики, полученные в этой работе говорят, что случайностей не существует, все закономерно. Можно исследовать плотность дорожного трафика и статистику ДТП и другие факторы. Все знают о печальных последствиях ДТП, но не применяют это к себе. Мне кажется, что если довести до сознания людей неизбежность последствий ДТП (особенно статистику погибших), или неизбежность столкновения в ДТП, то, статистика аварийности пойдет на спад.
1 Если не установлен пакет расширений, то команды Анализ данных в меню Сервис может и не быть. Необходимо средствами Office установить расширения