Дисперсия, стандартное отклонение, коэффициент вариации

Автор работы: Пользователь скрыл имя, 22 Марта 2015 в 16:54, реферат

Описание работы

Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации

Файлы: 1 файл

1.docx

— 66.12 Кб (Скачать файл)

Дисперсия, стандартное отклонение, коэффициент вариации

Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации. Эти показатели достаточно часто встречаются в литературе и различных публикациях, поэтому с ними следует хорошенько разобраться. Фактически любой статистический показатель – это фундамент анализа данных и без хорошего понимания - никак. 

Напомню, что среднее линейное отклонение отражает среднее абсолютное отклонение значений от их средней величины. При расчете этого показателя, чтобы избежать взаимопогашения положительных и отрицательных отклонений, используется модуль, то есть каждое отклонение от средней берется с положительным знаком. Та же идея лежит в расчете другого известного в статистике показателя, только отклонения берутся не по модулю, а возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.

Дисперсия

Уверен, многие уже догадались, что речь идет о дисперсии. Дисперсия звучит красиво и очень научно. Стоит упомянуть в разговоре, и правда на твоей стороне. Дисперсия в статистике очень важный показатель, который активно используется в других видах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). В общем, невозможно быть хорошим аналитиком и не знать что такое дисперсия. Засмеют.

Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Формула для расчета дисперсии выглядит так: 

 

где

D – дисперсия,

x – анализируемый показатель, с черточкой сверху – среднее значение показателя,

n – количество значений в анализируемой совокупности данных.

Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция. 

 

Язык знаков полезно перевести на язык слов. Получится, что дисперсия - это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка магического слова «дисперсия» заключается всего в трех словах.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.

Стандартное отклонение

Дабы вернуть дисперсию в реальность, то есть использовать результат расчета для более приземленных целей, из нее извлекают квадратный корень. Получается так называемое стандартное отклонение. В статистике этот показатель еще называют среднеквадратическим отклонением, но первое название более короткое и распространенное. Будем им пользоваться. Формула стандартного отклонения имеет вид:

Примечание. Стандартное отклонение в Excel рассчитывается очень просто. 

 

Кстати, стандартное отклонение еще называют сигмой – от греческой буквы, которой его обозначают. Отсюда и название известного статистического метода «6-сигма». То есть 6 стандартных отклонений. Почему 6, расскажу в другой раз.

Стандартное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со стандартным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что в данных с нормальным распределением 997 значений из 1000 будут находиться не далее, чем 3 сигмы в ту или иную сторону от среднего значения. Сигма, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Коэффициент вариации

Из всех показателей вариации стандартное отклонение в наибольшей степени используется для проведения других видов статистического анализа. Как я уже писал выше, это оценка точности, качества и др. Однако среднеквадратическое отклонение дает абсолютную оценку меры разбросанности значений и чтобы понять, насколько она велика относительно самих значений, требуется относительный показатель. Такой показатель существует и называется он коэффициент вариации. Формула коэффициента вариации очень проста:

 

Примечание. Коэффициент вариации в Excel также считается быстро. 

 

Как видно, это отношение стандартного отклонения к средней величине. Данный показатель измеряется в процентах (если умножить на 100%). Имея коэффициенты вариации, можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.

В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.

Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Это поможет несколько систематизировать представление о показателях вариации. Возьмем пример с расчетом среднего линейного отклонения (из предыдущей статьи). Вот исходные данные: 

 

 

 

И график для напоминания 

 

 

 

По этим данным рассчитаем: среднее значение, размах вариации, среднее линейное отклонение, дисперсию и стандартное отклонение.

Среднее значение – это обычная средняя арифметическая.

 

 

 

 

Размах вариации – разница между максимумом и минимумом:

 

 

 

 

Среднее линейное отклонение считается по формуле:

 

 

 

 

 

 

Дисперсия считается по формуле:

 

 

 

 

Стандартное отклонение – корень из дисперсии:

 

 

 

 

Расчет сведем в табличку.

 

 

 

 

Как видно, среднее линейное отклонение и стандартное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.

Подведем некоторые итоги.

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

  1. Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.

  1. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.

  1. Дисперсия – средний квадрат отклонений.

  1. Стандартное отклонение – корень из дисперсии (среднего квадрата отклонений).

  1. Коэффициент вариации – наиболее универсальных показатель, отражающий степень разбросанности значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных. Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.

Про дисперсию можно много, чего еще рассказать. Например, у дисперсии есть ряд полезных свойств. Расчет дисперсии по выборке имеет свою особенность. Дисперсия также тесно связана с т.н. нормальным распределением, которое лежит в основе выборочного метода. В общем, рекомендую изучить тему разброса данных как можно тщательнее.  

 


Информация о работе Дисперсия, стандартное отклонение, коэффициент вариации