Автор работы: Пользователь скрыл имя, 20 Мая 2015 в 10:45, курсовая работа
В настоящее время термин статистика употребляется в 4 значениях:
наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием – учебный предмет в высших и средних специальных учебных заведений;
совокупность цифровых сведений, характеризующих состояние массовых явлений и процессов общественной жизни; статистические данные, представляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемых в сборниках, справочниках, периодической печати и в сети Интернет, которые являются результатом статистической работы;
отрасль практической деятельности («статистический учет») по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни;
Критериальным значением индекса динамики служит единица (или 100%), то есть если он больше 1, то имеет место рост (увеличение) явления во времени, а если равен 1 – стабильность, ну а если меньше 1 – наблюдается спад (уменьшение) явления.
Как видно по индексам динамики статистика аварийности снижается от года к году, поскольку выведенные индексы меньше 100%.
Еще одно название индекса динамики – коэффициент (темп) роста, вычитая из которого единицу (100%), получают темп изменения (темп прироста) с критериальным значением 0, который определяется по формуле
Таблица 4
Годы |
ДТП |
Idtp |
Погибло |
Ipog |
Ранено |
Iran |
Тяжесть |
Ityag |
2007 |
5686,149 |
0,000% |
831,743 |
0,000% |
7086,554 |
0,000% |
10,693 |
0,000% |
2008 |
5256,280 |
-7,560% |
741,107 |
-10,897% |
6538,960 |
-7,727% |
10,717 |
0,225% |
2009 |
4810,013 |
-15,408% |
650,667 |
-21,771% |
6000,880 |
-15,320% |
10,088 |
-5,660% |
2010 |
4751,618 |
-16,435% |
644,895 |
-22,465% |
5932,711 |
-16,282% |
10,271 |
-3,948% |
Если T>0, то имеет место рост явления; Т=0 – стабильность, Т<0 – спад. Наблюдаем спад аварийности.
Гистограмма используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.
Например, необходимо выявить тип распределения аварийности в наборе из 70 записей. Таблица гистограммы состоит из границ шкалы оценок и количеств областей, уровень аварийности которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.
Построим гистограммы для статистики ДТП на 2010 год.
Таблица 5
Варианта |
Частота |
280 |
1 |
7186,5 |
67 |
14093 |
2 |
20999,5 |
2 |
27906 |
2 |
34812,5 |
0 |
41719 |
1 |
48625,5 |
0 |
Еще |
1 |
Наиболее частой вариантой сгруппированных данных здесь является 7186,5
Модой называют варианту, которая имеет наибольшую частоту. В нашем случае значение частоты от 7186,5 имеет наибольшую частоту, равную 67. Это значит, что это значение является определяющим для этого ряда данных.
Посредством анализа динамических рядов решается еще одна важная задача – характеристика тенденций в развитии явлений. Выявление основной тенденции развития производится посредством выравнивания ряда динамики. Один из простейших способов выявления тенденций в развитии явления – это способ ступенчатой средней.
Первоначально производят укрупнение интервалов, т.е. сложение уровней ряда. В результате получается динамический ряд с более крупными интервалами и более ясной тенденцией. По каждому укрупненному интервалу рассчитывают среднюю хронологическую.
Рассмотренный прием позволяет выявить тенденцию, показать ее более ярко, тем не менее у этого способа есть один недостаток: из поля зрения выпадает процесс изменения внутри укрупненных интервалов.
Этим недостатком не страдает другой способ выявления общей тенденции – способ скользящей средней. Сглаживание с помощью скользящей средней заключается в последовательном расчете среднего уровня, сначала из определенного числа первых по счету уровней ряда, затем из того же числа уровней ряда, но начиная уже со второго по счету уровня ряда, далее из того же числа уровней ряда, но начиная с третьего уровня ряда и т.д. Таким образом, при образовании групп уровней ряда, из которых рассчитывается скользящая средняя, в каждой последующей группе отбрасывается начальный уровень предшествующей группы и добавляется следующий по порядку уровень ряда.
Так как для ряда динамики мы не имеем данных за большое количество лет, то будем использовать более сложный метод выявления основной тенденции развития – метод аналитического выравнивания. В этом случае уровни ряда замещаются уровнями, вычисленными на основе определенной кривой, которая выражает общую тенденцию изменения во времени изучаемого показателя, то есть с помощью регрессионной зависимости.
Возникает два вопроса: какова зависимость спада, какой прогноз печальной статистики аварийности мы можем получить через 2 года и можно ли верить этой зависимости, не являются ли полученные данными случайными?
Проведем расчет регрессионной зависимости для какого-либо одного признака, например по количеству ДТП.
Найдем уравнение линейной регрессии y на x в виде y=ax+b, где а и b - коэффициенты линейной регрессии. Здесь y – статистика ДТП, x- годы.
Найдем выборочный коэффицент корреляции:
где , - статистические оценки (среднеквадратические отклонения)
где Kxy -- коэффициент корреляции
Здесь , - средние выборочные, которые находятся по формуле арифметической средней:
Для облегчения расчетов составим расчетную таблицу и по ней найдем данные по формулам, приведенным выше:
Таблица 6
Из таблицы видно, что
Подготовив исходные данные найдём rxy
Так как коэффициент корреляции близок к единице, а среднеквадратическое уклонение нелинейной составляющей зависимости Sz, связывающей X и Y мало, то эту зависимость можно считать линейной.
Найдем выборочный коэффициент регрессии по формуле:
Составим выборочное уравнение регрессии по формуле:
Коэффициент регрессии характеризует изменение оценок по данной совокупности на единицу. С каждым последующим годом статистика ДТП будет уменьшаться на 324,99 ДТП в год.
Рассчитаем линейный коэффициент парной корреляции
Связь сильная, прямая. Определим коэффициент детерминации
Вариация результата на 92,58% объясняется вариацией фактора х. Проверим значимость выборочного коэффициента корреляции при a=0.05 и числу степеней свободы k=4-2=2. Вычислим наблюдаемое значение критерия Стьюдента:
По таблице критических точек распределения Стьюдента, по уровню значимости α=0.05 и числу степеней свободы k=4-2=2 найдем критическую точку tкр.(0,05;2)=4.30.
Так как Тнабл.= >|tкр|.= - отвергаем гипотезу о равенстве нулю генерального коэффициента корреляции. Следовательно, Х и Y имеют тесную корреляционную зависимость.
Выполним прогноз аварийности ДТП в 2012, 2013 году по выведенному уравнению регрессии.
Оценим точность прогноза, рассчитав ошибку прогноза и его доверительный интервал:
t здесь - это значение аргумента интегральной функции Лапласа, при котором
Находим t по таблице значений интегральной функции Лапласа:
Точность нашего прогноза составит . Доверительный интервал прогноза на 2013 год таков
Это значит, что в 2013 году можно ожидать аварийность от 3293 до4033.
Вообще говоря, этот длинный расчет в программе Excel выполняется с помощью несложных операций: построим диаграмму по найденным средним данным.
Добавим линии тренда на каждый изменяемый признак. «Линия тренда» -- компьютерный термин, на язык статистики переводится как «график уравнения регрессии». Регрессия бывает парной и множественной. Парная регрессия характеризует функциональную зависимость одного признака от другого, то есть вида y=f(x), где х – признак – данное, у – признак- результат. Уравнение регрессии может быть линейным, параболическим, кубическим (полиномиальным в общем случае), степенным, показательным (экспоненциальным). В общем случае, какая линия регрессии дает наилучшее приближение к исходным данным, определяется в каждом случае в зависимости от коэффициента регрессии для случая каждой линии тренда.
Щелкнем на построенной диаграмме, выберем в контекстном меню «Добавить линию тренда». Выберем вид типа линии тренда «Линейная», поскольку видно, что зависимость построенных данных линейная. Настроим параметры линии тренда, как показано на рисунке:
Рисунок 10 Настройка линии тренда
Замечаем, что выведенное нами уравнение регрессии для ДТП—годы полностью совпадает с уравнением регрессии, построенным в Excel.
Коэффициент аппроксимации (детерминации) также полностью совпадает с найденным значением:
Это означает, что расчеты, выполняемые Excel, верны, и доверяя теперь выведенным уравнениям регрессии и коэффициентам аппроксимации, выведем остальные уравнения регрессии.
Эти уравнения регрессии выводились из того соображения, что ряды признаки независимы друг от друга. Если же исходные данные зависят друг от друга, то есть если между рядами «Погибло», «Ранено» существует какая-то зависимость, то необходимо применить другие инструменты исследования. в частности, аппарат множественной корреляции.
Проведем регрессионный анализ модели на уровне значимости .
где x1 –
y |
ДТП |
x1 |
Погибло |
x2 |
Ранено |
x3 |
Тяжесть |
Если исследуется связь между несколькими признаками, то корреляцию называют множественной.
В простейшем случае число признаков равно четырем и связь между ними линейная:
В этом случае возникают задачи:
1) найти по данным наблюдений выборочное уравнение связи, то есть определить коэффициенты , , ,
то есть необходимо найти коэффициенты регрессии , , , а также параметр ;
2) оценить тесноту связи между параметрами , , ,y попарно. Для этого строится матрица коэффициентов парной корреляции, в которой приводятся коэффициенты попарной корреляции между признаками. Этот расчет проводят из того соображения, что не только результирующий признак y (количество ДТП) зависит от исходных признаков, а исходные признаки (Ранено, Погибло, Тяжесть последствий) коррелируют между собой. Если найдется устойчивая корреляционная связь, то можно вывести линейное уравнение регрессии между этими двумя признаками, а затем в функции от трех переменных сделать замену одного входного фактора на аналитическое выражение от другого и, таким образом, снизить факторность модели. Например, если и тесно скоррелированы между собой, то получив уравнение зависимости, скажем, от вида:
Вид зависимости здесь может быть не только линейный, а какой-либо еще.
Модель может приобрести новый вид, где число факторов уменьшилось. Конечно, это преобразование можно проводить, если коэффициент корреляции достаточно близок к 1.
Проведем корреляционный анализ.
Основой решения этих задач служит матрица коэффициентов парной корреляции.
Поскольку коэффициент парной корреляции — симметричная мера связи, корреляционная матрица записывается либо как верхняя треугольная матрица, либо как нижняя треугольная матрица. По диагонали такой матрицы расположены единицы, т.е. это коэффициенты корреляции каждой переменной с самой собой.
На основе корреляционной матрицы выявляют те факторные признаки, которые тесно коррелируют с результативным признаком, т. е. обращают внимание на элементы верхней строки матрицы корреляций. Затем сравнивают коэффициенты корреляции между факторными признаками, т. е. с коэффициентами корреляции их с результативным признаком. В анализ совместно включаются те факторные признаки, для которых их корреляция между собой слабее корреляции с результативным признаком.
Коэффициенты парной корреляции называются коэффициентами нулевого порядка. На их основе можно рассчитать коэффициенты частной корреляции первого порядка, когда элиминируется корреляция с одной переменной, а так же второго и третьего.
Рассчитаем коэффициенты парной корреляции.
Для этого воспользуемся функцией «Сервис – анализ данных - корреляция»1.
Рисунок 12 Вызов окна анализа данных