Робастость статистических оценок

Автор работы: Пользователь скрыл имя, 10 Января 2012 в 14:15, курсовая работа

Описание работы

Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.

Содержание работы

Введение……………………………………………………………………2
Понятие робастности……………………………………………………..3
Основные подходы………………………………………………………..6
Группирование данных как метод робастной статистики…………..7
Группирование наблюдений как способ получения робастных
оценок………………………………………………………………………8
Функции влияния и робастность оценок……………………………..22
Список литературы………………………………………………………35

Файлы: 1 файл

КУРСОВАЯ.docx

— 610.18 Кб (Скачать файл)

Содержание 

Введение……………………………………………………………………2

Понятие робастности……………………………………………………..3

Основные подходы………………………………………………………..6

Группирование данных как метод робастной статистики…………..7

 Группирование наблюдений как способ получения робастных

 оценок………………………………………………………………………8 

 Функции влияния и робастность оценок……………………………..22

Список литературы………………………………………………………35

 

                                         Введение

    Робастные методы — новое направление в математической статистике. Методы могут применяться в оценке параметров статистических моделей, применяются также в экономико-математических моделях функциональных комплексов автоматизированных систем управления.

   При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.            

 В борьбе  с грубыми погрешностями измерений,  если они не были обнаружены  в процессе измерений, используют  два подхода:

-      исключение резко выделяющихся аномальных измерений из дальнейшей обработки;

-      использование робастных методов обработки.           

 В данной  работе остановимся на комплексе  взаимосвязанных вопросов: “простом” способе робастного оценивания параметров непрерывных законов распределения, мощности критериев согласия и достаточно эффективном параметрическом методе отбраковки аномальных наблюдений.

    

                                     Понятие робастности

   Термин "робастность" (robustnes) образован от англ. robust - крепкий, грубый. Сравните с названием одного из сортов кофе - robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей.

   Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась.

    Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или не очень попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой). Помимо непосредственно «бракованных» наблюдений также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.

Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.

Стоит отдельно подчеркнуть и не забывать, что  отбракованные наблюдения нуждаются  в отдельном, более пристальном  внимании. Наблюдения, кажущиеся «плохими»  для одной гипотезы, могут вполне соответствовать другой. Наконец, отнюдь не всегда резко выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.

      В выборке могут присутствовать отклонения от предположений двух видов. Допустим, что наблюдаемая выборка действительно принадлежит тому закону распределения, оценки которого мы пытаемся найти. В этом случае отклонения могут быть связаны с наличием аномальных наблюдений, появление которых в выборке определяется самыми различными причинами, в том числе засорением значениями, принадлежащими другому закону. Если не учитывать наличие аномальных наблюдений, попытки оценивания параметров распределения могут привести к самым плачевным результатам. Что же делать? Естественно, надо отбраковать аномальные измерения, а затем искать оценки параметров. К сожалению, реализовать отбраковку наблюдений в общем случае оказывается совсем не просто. Наблюдения, аномальные с позиций одного закона распределения, являются естественным проявлением закономерностей второго. Если нет надежной процедуры отбраковки или практических соображений, связанных с физикой наблюдаемой величины, пытаются выйти из положения одним из следующих способов. В первом случае усекают выборку, отбрасывая определенную часть минимальных и/или максимальных наблюдений, и по оставшейся части оценивают параметры распределения, то есть используют так называемые -урезанные оценки (отбрасывается  наименьших и  наибольших значений выборки ). Во втором - перед процедурой оценивания винзорируют выборку: всем наблюдениям левее и/или правее определенных значений присваивают одинаковые значения. Эти два подхода используются при обработке наблюдений ещё с XIX века и связаны с именами Пуанкаре и Винзора. Обе эти процедуры далеко не всегда приводят к положительным результатам. Кроме того, в обоих случаях мы имеем дело с новой генеральной совокупностью, которой принадлежит видоизмененная выборка. Более правильным следует считать третий подход, когда выборку цензурируют. Для наблюдений, попавших левее и/или правее определенных значений, фиксируют лишь факт попадания в соответствующий интервал, опуская конкретные значения этих наблюдений. По такой цензурированной выборке оценивают параметры закона.         

 Другая  ситуация. В выборке нет аномальных  наблюдений, но наблюдаемый закон распределения отличается от предполагаемого. Такая ситуация присутствует практически всегда, так как множество законов распределения вероятностей бесконечно, а количество моделей, используемых на практике для описания наблюдаемых случайных величин, очень ограничено. Чем существенней вид предполагаемой модели отличается от реально наблюдаемого закона, тем сильнее это отражается на оценках параметров.          

 Очевидно, что в наблюдаемых на практике  выборках и закон, пусть мало, но отличается от используемой модели, и обычно налицо аномальные наблюдения. Поэтому применение цензурирования, одностороннего или двустороннего, далеко не всегда приносит желаемый эффект.

                                   Основные подходы

Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления:

Сгруппировать данные, не отбраковывая отдельные  наблюдения, таким образом значительно снизив возможность порчи выборки отдельными выпадами. После чего с достаточной степенью уверенности пользоваться классическими методами статистики.

Отслеживать выбросы  непосредственно в процессе анализа. Например, для определения параметров закона распределения использовать итерационную процедуру с усечёнными или th-сниженными M-оценками .

         Группирование данных как метод робастной статистики

Посредством группирования  выборки можно резко снизить  влияние отдельных наблюдений, не отбрасывая их. Разбиение на интервалы  не представляет особых трудностей и  даёт весьма ощутимый результат. Существует три наиболее распространённых способа  разбиения:

Разбиение на интервалы  равной длины. Наиболее простой и  потому распространённый способ.

Разбиение на интервалы  равной вероятности, также называемое равно частотным группированием, что отражает практическую реализацию этого метода. В результате такого группирования выборки осуществляется максимизация величины информационной энтропии , где и достигается наибольшая асимптотическая мощность критерия согласия , либо критерия отношения правдоподобия.

Разбиение на асимптотически оптимальные интервалы. При таком  разбиении минимизируются потери информации в результате группирования, то есть максимизируется фишеровская информация , где  — оцениваемый параметр закона. Для многих законов распределения удалось получить инвариантные относительно параметров границы интервалов, и были составлены соответствующие таблицы. Такое разбиение позволяет максимизировать мощность критерия.

          Группирование наблюдений как способ получения

                                 робастных оценок

Метод максимального правдоподобия является одним из наиболее популярных и эффективных  методов оценивания параметров распределений. Достаточно часто приходится сталкиваться с необоснованными утверждениями, что оценки максимального правдоподобия являются робастными и, именно поэтому, предпочтительно использовать именно их. Автор является сторонником широкого использования метода максимального правдоподобия, но вместе с тем, основываясь на достаточно большом практическом опыте и результатах этого и следующего параграфа, обязан подчеркнуть, возможно очевидное для многих, что в общем случае ОМП параметров распределений не являются робастными.          

 Проиллюстрируем  сказанное следующими примерами.  Это можно было бы сделать с одинаковым эффектом на различных законах распределения, но, учитывая роль нормального распределения в теории и приложениях математической статистики, приведем примеры именно с нормальным законом. В первом примере иллюстрируется влияние аномальных ошибок на ОМП параметров нормального распределения, а во втором параметры нормального закона оцениваются по выборке, принадлежащей другому закону распределения. Для чистоты эксперимента выборки моделируются в соответствии с заданными законами.

Пример 2.1.   Выборка по нормальному закону моделировалась с математическим ожиданием  и среднеквадратическим отклонением . На рис. 2.1 приведены результаты статистического анализа смоделированной выборки. Вычисленные значения ОМП  и . На этом и последующем аналогичных рисунках приведены значения статистик отношения правдоподобия,  Пирсона, Колмогорова, Смирнова,  и  Мизеса, вычисляемые при проверке гипотез о согласии, и соответствующие вероятности вида , где  - вычисленное значение соответствующей статистики,  - предельное распределение вероятностей для статистики. Гипотеза о согласии не отвергается, если , где  - заданный уровень значимости. Для статистик отношения правдоподобия и  Пирсона значения вероятностей приводятся при двух различных степенях свободы. Разность степеней свободы определяется количеством параметров, оцененных по выборке. При вычислении вероятностей вида  для непараметрических критериев типа Колмогорова, Смирнова,  и  Мизеса учитывается факт потери ими свойства “свободы от распределения”. Как видим, согласие с нормальным законом очень хорошее.   

              

Рис.2.1. Результаты статистического  анализа исходной выборки по не группированным данным

    Теперь допустим, что в выборку “вкралось” всего 3 аномальных наблюдения (в результате замены трех первых наблюдений: -0.7783 на -10.7783, -0.6389 на -10.6389, 0.1698 на 10.1698). Результаты анализа с теоретической и эмпирической функциями распределения приведены на рис. 2.2. Полученные ОМП параметров нормального распределения  и . Особенно существенно наличие аномальных наблюдений повлияло на оценку среднеквадратичного отклонения. По всем критериям согласие с нормальным законом распределения будет отклонено при уровне значимости  > 0.0008.

Пример 2.2. Этот пример связан с использованием нормального закона распределения в ситуации, когда на самом деле выборка принадлежит распределению Лапласа. Распределение Лапласа с более “тяжелыми” хвостами, чем у нормального. На рис. 3.3 приведены эмпирическая и теоретические функции нормального распределения, когда по выборке, смоделированной в соответствии с распределением Лапласа, оценивались параметры нормального закона ( ). Как видно из значений статистик и соответствующих вероятностей, ни о какой близости эмпирической и теоретической функций распределения говорить не приходится.        

 Естественно,  что использование получившихся  в этих 2-х примерах нормальных  законов в качестве моделей  наблюдаемых выборок ни к чему  хорошему не приведет.

             

Рис.2.2. Эмпирическая функция  распределения (1) и  теоретическая 

функция нормального распределения (2), полученная по выборке  с аномальными  наблюдениями

    Что же можно сделать, чтобы снизить влияние аномальных ошибок и отклонений наблюдаемых выборок от предполагаемого закона на оценки вычисляемых параметров? Мы настоятельно рекомендуем использовать перед вычислением оценок параметров процедуру предварительного группирования наблюдений. Группирование выборки позволяет резко снизить влияние аномальных наблюдений, а иногда практически исключить последствия присутствия их в выборке. Резко снижается влияние на оценки параметров и отклонений вида наблюдаемого закона от предполагаемого. Продемонстрируем это на выборках приведенных примеров.          

 На  рис. 2.4 представлены результаты  оценивания параметров нормального распределения и последующего анализа по сгруппированной выборке из примера 2.1, содержащей 3 аномальных наблюдения (сравните значения статистик и соответствующих вероятностей с представленными на рис. 2.2). Полученные ОМП параметров нормального распределения по группированным данным  и . Визуального различия между эмпирической и теоретической функцией нормального закона в данном случае нет, поэтому соответствующие графики не приводятся.         

Информация о работе Робастость статистических оценок