Автор работы: Пользователь скрыл имя, 10 Января 2012 в 14:15, курсовая работа
Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.
Введение……………………………………………………………………2
Понятие робастности……………………………………………………..3
Основные подходы………………………………………………………..6
Группирование данных как метод робастной статистики…………..7
Группирование наблюдений как способ получения робастных
оценок………………………………………………………………………8
Функции влияния и робастность оценок……………………………..22
Список литературы………………………………………………………35
Содержание
Введение…………………………………………………………
Понятие робастности…………………………………………………
Основные подходы………………………………………………………..
Группирование
данных как метод робастной
Группирование наблюдений как способ получения робастных
оценок……………………………………………………………
Функции влияния и робастность оценок……………………………..22
Список литературы…………………………………
Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.
При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.
В борьбе
с грубыми погрешностями
- исключение резко выделяющихся аномальных измерений из дальнейшей обработки;
- использование робастных методов обработки.
В данной
работе остановимся на
Понятие робастности
Термин "робастность" (robustnes) образован от англ. robust - крепкий, грубый. Сравните с названием одного из сортов кофе - robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей.
Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась.
Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или не очень попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой). Помимо непосредственно «бракованных» наблюдений также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.
Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.
Стоит отдельно подчеркнуть и не забывать, что отбракованные наблюдения нуждаются в отдельном, более пристальном внимании. Наблюдения, кажущиеся «плохими» для одной гипотезы, могут вполне соответствовать другой. Наконец, отнюдь не всегда резко выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.
В выборке могут присутствовать отклонения от предположений двух видов. Допустим, что наблюдаемая выборка действительно принадлежит тому закону распределения, оценки которого мы пытаемся найти. В этом случае отклонения могут быть связаны с наличием аномальных наблюдений, появление которых в выборке определяется самыми различными причинами, в том числе засорением значениями, принадлежащими другому закону. Если не учитывать наличие аномальных наблюдений, попытки оценивания параметров распределения могут привести к самым плачевным результатам. Что же делать? Естественно, надо отбраковать аномальные измерения, а затем искать оценки параметров. К сожалению, реализовать отбраковку наблюдений в общем случае оказывается совсем не просто. Наблюдения, аномальные с позиций одного закона распределения, являются естественным проявлением закономерностей второго. Если нет надежной процедуры отбраковки или практических соображений, связанных с физикой наблюдаемой величины, пытаются выйти из положения одним из следующих способов. В первом случае усекают выборку, отбрасывая определенную часть минимальных и/или максимальных наблюдений, и по оставшейся части оценивают параметры распределения, то есть используют так называемые -урезанные оценки (отбрасывается наименьших и наибольших значений выборки ). Во втором - перед процедурой оценивания винзорируют выборку: всем наблюдениям левее и/или правее определенных значений присваивают одинаковые значения. Эти два подхода используются при обработке наблюдений ещё с XIX века и связаны с именами Пуанкаре и Винзора. Обе эти процедуры далеко не всегда приводят к положительным результатам. Кроме того, в обоих случаях мы имеем дело с новой генеральной совокупностью, которой принадлежит видоизмененная выборка. Более правильным следует считать третий подход, когда выборку цензурируют. Для наблюдений, попавших левее и/или правее определенных значений, фиксируют лишь факт попадания в соответствующий интервал, опуская конкретные значения этих наблюдений. По такой цензурированной выборке оценивают параметры закона.
Другая ситуация. В выборке нет аномальных наблюдений, но наблюдаемый закон распределения отличается от предполагаемого. Такая ситуация присутствует практически всегда, так как множество законов распределения вероятностей бесконечно, а количество моделей, используемых на практике для описания наблюдаемых случайных величин, очень ограничено. Чем существенней вид предполагаемой модели отличается от реально наблюдаемого закона, тем сильнее это отражается на оценках параметров.
Очевидно, что в наблюдаемых на практике выборках и закон, пусть мало, но отличается от используемой модели, и обычно налицо аномальные наблюдения. Поэтому применение цензурирования, одностороннего или двустороннего, далеко не всегда приносит желаемый эффект.
Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления:
Сгруппировать данные, не отбраковывая отдельные наблюдения, таким образом значительно снизив возможность порчи выборки отдельными выпадами. После чего с достаточной степенью уверенности пользоваться классическими методами статистики.
Отслеживать выбросы непосредственно в процессе анализа. Например, для определения параметров закона распределения использовать итерационную процедуру с усечёнными или th-сниженными M-оценками .
Группирование данных как метод робастной статистики
Посредством группирования выборки можно резко снизить влияние отдельных наблюдений, не отбрасывая их. Разбиение на интервалы не представляет особых трудностей и даёт весьма ощутимый результат. Существует три наиболее распространённых способа разбиения:
Разбиение на интервалы равной длины. Наиболее простой и потому распространённый способ.
Разбиение на интервалы равной вероятности, также называемое равно частотным группированием, что отражает практическую реализацию этого метода. В результате такого группирования выборки осуществляется максимизация величины информационной энтропии , где и достигается наибольшая асимптотическая мощность критерия согласия , либо критерия отношения правдоподобия.
Разбиение на асимптотически оптимальные интервалы. При таком разбиении минимизируются потери информации в результате группирования, то есть максимизируется фишеровская информация , где — оцениваемый параметр закона. Для многих законов распределения удалось получить инвариантные относительно параметров границы интервалов, и были составлены соответствующие таблицы. Такое разбиение позволяет максимизировать мощность критерия.
Группирование наблюдений как способ получения
робастных оценок
Метод
максимального правдоподобия
Проиллюстрируем
сказанное следующими
Пример
2.1. Выборка
по нормальному закону моделировалась
с математическим ожиданием
и среднеквадратическим отклонением
. На рис. 2.1 приведены результаты статистического
анализа смоделированной выборки. Вычисленные
значения ОМП
и
. На этом и последующем аналогичных рисунках
приведены значения статистик отношения
правдоподобия,
Пирсона, Колмогорова, Смирнова,
и
Мизеса, вычисляемые при проверке гипотез
о согласии, и соответствующие вероятности
вида
, где
- вычисленное значение соответствующей
статистики,
- предельное распределение вероятностей
для статистики. Гипотеза о согласии не
отвергается, если
, где
- заданный уровень значимости. Для статистик
отношения правдоподобия и
Пирсона значения вероятностей приводятся
при двух различных степенях свободы.
Разность степеней свободы определяется
количеством параметров, оцененных по
выборке. При вычислении вероятностей
вида
для непараметрических критериев типа
Колмогорова, Смирнова,
и
Мизеса учитывается факт потери ими свойства
“свободы от распределения”. Как видим,
согласие с нормальным законом очень хорошее.
Рис.2.1. Результаты статистического анализа исходной выборки по не группированным данным
Теперь допустим, что в выборку “вкралось” всего 3 аномальных наблюдения (в результате замены трех первых наблюдений: -0.7783 на -10.7783, -0.6389 на -10.6389, 0.1698 на 10.1698). Результаты анализа с теоретической и эмпирической функциями распределения приведены на рис. 2.2. Полученные ОМП параметров нормального распределения и . Особенно существенно наличие аномальных наблюдений повлияло на оценку среднеквадратичного отклонения. По всем критериям согласие с нормальным законом распределения будет отклонено при уровне значимости > 0.0008.
Пример 2.2. Этот пример связан с использованием нормального закона распределения в ситуации, когда на самом деле выборка принадлежит распределению Лапласа. Распределение Лапласа с более “тяжелыми” хвостами, чем у нормального. На рис. 3.3 приведены эмпирическая и теоретические функции нормального распределения, когда по выборке, смоделированной в соответствии с распределением Лапласа, оценивались параметры нормального закона ( ). Как видно из значений статистик и соответствующих вероятностей, ни о какой близости эмпирической и теоретической функций распределения говорить не приходится.
Естественно,
что использование
Рис.2.2. Эмпирическая функция распределения (1) и теоретическая
функция нормального распределения (2), полученная по выборке с аномальными наблюдениями
Что же можно сделать, чтобы снизить влияние аномальных ошибок и отклонений наблюдаемых выборок от предполагаемого закона на оценки вычисляемых параметров? Мы настоятельно рекомендуем использовать перед вычислением оценок параметров процедуру предварительного группирования наблюдений. Группирование выборки позволяет резко снизить влияние аномальных наблюдений, а иногда практически исключить последствия присутствия их в выборке. Резко снижается влияние на оценки параметров и отклонений вида наблюдаемого закона от предполагаемого. Продемонстрируем это на выборках приведенных примеров.
На
рис. 2.4 представлены результаты
оценивания параметров