Автор работы: Пользователь скрыл имя, 20 Мая 2015 в 10:45, курсовая работа
В настоящее время термин статистика употребляется в 4 значениях:
наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием – учебный предмет в высших и средних специальных учебных заведений;
совокупность цифровых сведений, характеризующих состояние массовых явлений и процессов общественной жизни; статистические данные, представляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемых в сборниках, справочниках, периодической печати и в сети Интернет, которые являются результатом статистической работы;
отрасль практической деятельности («статистический учет») по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни;
СОДЕРЖАНИЕ
В настоящее время термин статистика употребляется в 4 значениях:
Как и любая другая наука, статистика имеет свой предмет и метод исследования. Статистика изучает количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной или содержанием, а также исследует количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Такое изучение основывается на системе категорий (понятий), отражающих наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира.
Совокупность приемов, пользуясь которыми статистика исследует свой предмет, составляет метод статистики. Можно выделить 3 группы статистических методов (3 этапа статистического исследования):
Cтатистическое наблюдение - научно организованный сбор сведений, заключающийся в регистрации тех или иных фактов, признаков, относящихся к каждой единице изучаемой совокупности;
Сводка и группировка - обработка собранных первичных данных, включающая их группировку, обобщение и оформление в таблицах;
Статистический анализ - на основе итоговых данных сводки рассчитываются различные обобщающие показатели в виде средних и относительных величин, выявляются определенные закономерности в распределениях, динамике показателей и т.п.
Таким образом, любое законченное статистическое исследование проходит в 3 этапа, между которыми, разумеется, могут быть перерывы во времени.
В данной работе представлены эти три этапа. Причем результаты статистического наблюдения были приведены на официальном сайте ГИБДД МВД России. Далее была проведена работа по сводке и группировке данных, а затем по статистическому анализу.
В качестве исходных данных были найдены на официальном сайте ГИБДД МВД России, в разделе ГИБДД, подраздел статистика МВД, где были приведены данные с 2007 по 2011 год включительно. Здесь для исследования были взяты даны с 2007 год по 2010 год, поскольку в этих данные есть статистика за полные прошедшие года, а поскольку 2011 год еще не закончился, статистика аварий будет меньше чем за предыдущие годы, что может исказить картину исследования. Поэтому данные за 2011 год было решено не брать.
Статистика аварийности была приведена в следующей форме (pdf-формат):
Рисунок 1 – Оформление данных на официальном сайте
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.
Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС - N. Отношение n/N называется относительный размер или доля выборки.
Качество результатов выборочного наблюдения зависит от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.
Существует 4 способа случайного отбора в выборку:
Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (например, бочонки), которые затем перемешиваются в некоторой емкости (например, в мешке) и выбираются наугад. На практике этот способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.
Механический отбор, согласно которому отбирается каждая (N/n)-я величина генеральной совокупности. Например, если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 100 000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась единица № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т.д. Если единицы генеральной совокупности ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
Особый способ составления выборки представляет собой серийный отбор, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.
Качество выборочных наблюдений зависит и от типа выборки: повторная или бесповторная. При повторном отборе попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку. Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.
Были отобраны для анализа следующие объемы выборок способом случайного отбора :
2010 год – 77 записей
Как видно, выборки представляют собой репрезентативные (представительные) выборки. Кроме того, данные, представленные в них стремятся к нормальному закону распределения, поскольку объемы выборок достаточно велики.
Так как объем наших данных достаточно велик, для нахождения выборочных средних применим мастер сводных таблиц в EXCEL. Соберем все средние в сводную таблицу, построим для нее график по следующему алгоритму.
Рисунок 6 Мастер сводных таблиц (шаг 1)
Рисунок 7 Указание диапазона для выборки
Рисунок 8 Макет сводной таблицы
Рисунок 9 Выбор листа
Таблица 1. Сгруппированные данные
2007 |
2008 |
2009 |
2010 | |
Среднее по полю ДТП |
5686,149 |
5256,28 |
4810,013 |
4751,618 |
Среднее по полю Погибло |
831,7432 |
741,1067 |
650,6667 |
644,8947 |
Среднее по полю Ранено |
7086,554 |
6538,96 |
6000,88 |
5932,711 |
Среднее по полю Тяжесть |
10,69324 |
10,71733 |
10,088 |
10,27105 |
Объем выборки |
65 |
76 |
76 |
77 |
Найдем общую среднюю по групповым средним.
Общей средней называют среднее арифметическое значений признака, принадлежащих всей совокупности. Зная групповые средние и объемы групп, можно найти общую среднюю: общая средняя равна средней арифметической групповых средних, взвешенной по объемам групп.
Посчитаем групповые средние:
Иначе говоря, по России в среднем за предыдущие годы было 5103 аварий в год по каждому федеральному образовании , в каждом федеральном образовании за год в авариях погибает 712 человек, 6362 имеет ранения в авариях, средняя степень тяжести ДТП составляет 10.432 в год по каждому федеральному образованию.
Смещённой оценкой генеральной средней служит выборочная дисперсия:
Дисперсия есть квадратическая величина отклонения. Например, если средняя выражается в штуках, то дисперсия выражается шт2 . Поэтому для перехода к обычной размерности вычисляют среднеквадратическое отклонение, которое вычислим как квадратный корень из дисперсии:
Коэффициентом вариации V называют выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочной средней
Размахом варьирования называют разность между наибольшей и наименьшей вариантами:
Таблица 2 Определение размаха варьирования
Годы |
ДТП |
Погибло |
Ранено |
Тяжесть |
2007 |
5686,148649 |
831,7432432 |
7086,554054 |
10,69324324 |
2008 |
5256,28 |
741,1066667 |
6538,96 |
10,71733333 |
2009 |
4810,013333 |
650,6666667 |
6000,88 |
10,088 |
2010 |
4751,618421 |
644,8947368 |
5932,710526 |
10,27105263 |
Размах варьирования |
934,5302276 |
186,8485064 |
1153,843528 |
0,629333333 |
Для характеристики массовых явлений статистика использует статистические величины (показатели). Они подразделяются на абсолютные, относительные и средние.
Анализируя абсолютные величины, например, статистические данные об аварийности, необходимо сопоставлять эти данные во времени и пространстве, исследовать закономерности их изменения и развития, изучать структуру совокупностей. С помощью абсолютных величин эти задачи не выполнимы, в этом случае необходимо использовать относительные величины.
Результаты статистических наблюдений представляют собой абсолютные величины, отражающие уровень развития какого-либо явления или процесса. Абсолютные величины всегда имеют свою единицу измерения (размерность), присущую изучаемому явлению. Наши абсолютные величины есть натуральные. Натуральные, подразделяющиеся на простые (например, штуки, тонны, метры)
Относительная величина – это результат деления (сравнения) двух абсолютных величин. В числителе дроби стоит величина, которую сравнивают, а в знаменателе – величина, с которой сравнивают (база сравнения).
Полученная относительная величина выражена в виде коэффициента, который показывает, во сколько раз сравниваемая величина больше базисной. В случае если основание принимается за 100, относительная величина выражается в процентах (%). Выбор той или иной формы относительной величины зависит от ее абсолютного значения.
Так как сравниваемые величины примерно близки по значению, то относительную величину выражают в процентах (%).
Для удобства построения индекса используется следующая символика.
i
— символ индексируемого
I
— с подстрочным индексируемым
показателем — для группы
Dtp — количество аварий
Pog — количество погибших в авариях
Ran — ранено в авариях
Tyag — последствия тяжести
0 — базисный период
1 — отчетный период
Индекс динамики показывает изменение явления во времени и представляет собой отношение значений изучаемого явления в отчетный (анализируемый) период (момент) времени к базисному (предыдущему). Данный индекс определяется по формуле
где цифры означают: 1 – отчетный или анализируемый период, 0 – прошлый или базисный период.
В таблице 1 приведены индексы динамики, где базой сравнения послужили данные 2007 года.
Таблица 3
Годы |
ДТП |
Idtp |
Погибло |
Ipog |
Ранено |
Iran |
Тяжесть |
Ityag |
2007 |
5686,149 |
100,000% |
831,743 |
100,000% |
7086,554 |
100,000% |
10,693 |
100,000% |
2008 |
5256,280 |
92,440% |
741,107 |
89,103% |
6538,960 |
92,273% |
10,717 |
100,225% |
2009 |
4810,013 |
84,592% |
650,667 |
78,229% |
6000,880 |
84,680% |
10,088 |
94,340% |
2010 |
4751,618 |
83,565% |
644,895 |
77,535% |
5932,711 |
83,718% |
10,271 |
96,052% |