Автор работы: Пользователь скрыл имя, 22 Марта 2015 в 16:54, реферат
Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации
Из предыдущей статьи мы узнали, что такое вариация данных и рассмотрели такие показатели, как размах вариации и среднее линейное отклонение. Оба показателя отличаются и методом расчета (это очевидно), и интерпретацией. Однако статистические показатели изменчивости на этом не заканчиваются. Сегодня я расскажу о том, что такое дисперсия, стандартное отклонение (оно же среднеквадратическое отклонение, оно же сигма) и коэффициент вариации. Эти показатели достаточно часто встречаются в литературе и различных публикациях, поэтому с ними следует хорошенько разобраться. Фактически любой статистический показатель – это фундамент анализа данных и без хорошего понимания - никак.
Напомню, что среднее линейное отклонение отражает среднее абсолютное отклонение значений от их средней величины. При расчете этого показателя, чтобы избежать взаимопогашения положительных и отрицательных отклонений, используется модуль, то есть каждое отклонение от средней берется с положительным знаком. Та же идея лежит в расчете другого известного в статистике показателя, только отклонения берутся не по модулю, а возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.
Уверен, многие уже догадались, что речь идет о дисперсии. Дисперсия звучит красиво и очень научно. Стоит упомянуть в разговоре, и правда на твоей стороне. Дисперсия в статистике очень важный показатель, который активно используется в других видах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). В общем, невозможно быть хорошим аналитиком и не знать что такое дисперсия. Засмеют.
Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.
Формула для расчета дисперсии выглядит так:
где
D – дисперсия,
x – анализируемый показатель, с черточкой сверху – среднее значение показателя,
n – количество значений в анализируемой совокупности данных.
Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция.
Язык знаков полезно перевести на язык слов. Получится, что дисперсия - это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка магического слова «дисперсия» заключается всего в трех словах.
Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.
Дабы вернуть дисперсию в реальность, то есть использовать результат расчета для более приземленных целей, из нее извлекают квадратный корень. Получается так называемое стандартное отклонение. В статистике этот показатель еще называют среднеквадратическим отклонением, но первое название более короткое и распространенное. Будем им пользоваться. Формула стандартного отклонения имеет вид:
Примечание. Стандартное отклонение в Excel рассчитывается очень просто.
Кстати, стандартное отклонение еще называют сигмой – от греческой буквы, которой его обозначают. Отсюда и название известного статистического метода «6-сигма». То есть 6 стандартных отклонений. Почему 6, расскажу в другой раз.
Стандартное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со стандартным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что в данных с нормальным распределением 997 значений из 1000 будут находиться не далее, чем 3 сигмы в ту или иную сторону от среднего значения. Сигма, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.
Из всех показателей вариации стандартное отклонение в наибольшей степени используется для проведения других видов статистического анализа. Как я уже писал выше, это оценка точности, качества и др. Однако среднеквадратическое отклонение дает абсолютную оценку меры разбросанности значений и чтобы понять, насколько она велика относительно самих значений, требуется относительный показатель. Такой показатель существует и называется он коэффициент вариации. Формула коэффициента вариации очень проста:
Примечание. Коэффициент вариации в Excel также считается быстро.
Как видно, это отношение стандартного отклонения к средней величине. Данный показатель измеряется в процентах (если умножить на 100%). Имея коэффициенты вариации, можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.
В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.
Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Это поможет несколько систематизировать представление о показателях вариации. Возьмем пример с расчетом среднего линейного отклонения (из предыдущей статьи). Вот исходные данные:
И график для напоминания
Информация о работе Дисперсия, стандартное отклонение, коэффициент вариации