Автор работы: Пользователь скрыл имя, 05 Июня 2013 в 17:51, курсовая работа
Цель данной работы – изучить основы математической статистики и показать практическое применение математической статистики в различных областях.
Для написания данной работы были поставлены следующие задачи:
Изучить литературу соответствующей тематики.
Составить алгоритм программы, реализующей основные статистические методы.
Написать программу, реализующую основные статистические методы.
Решить с помощью созданной программы несколько примеров.
Целями применения статистических методов анализа точности и стабильности технологических процессов и качества продукции на стадиях разработки, производства и эксплуатации (потребления) продукции являются, в частности:
определение фактических показателей точности и стабильности технологического процесса, оборудования или качества продукции;
установление соответствия
качества продукции требованиям
нормативно-технической
проверка соблюдения технологической дисциплины;
изучение случайных и систематических факторов, способных привести к появлению дефектов;
выявление резервов производства и технологии;
обоснование технических норм и допусков на продукцию;
оценка результатов испытаний опытных образцов при обосновании требований к продукции и нормативов на неё;
обоснование выбора технологического оборудования и средств измерений и испытаний;
сравнение различных образцов продукции;
обоснование замены сплошного контроля статистическим;
выявление возможности внедрения статистических методов управления качеством продукции, и так далее.
Для достижения перечисленных выше целей применяют различные методы описания данных, оценивания и проверки гипотез. Приведём примеры постановок задач.
5.2. Задачи одномерной статистики (статистики случайных величин)
Сравнение математических ожиданий проводят в тех случаях, когда требуется установить соответствие показателей качества изготовленной продукции и эталонного образца. Это — задача проверки гипотезы:
,
где m0 — значение, соответствующее эталонному образцу; X — случайная величина, моделирующая результаты наблюдений. В зависимости от формулировки вероятностной модели ситуации и альтернативной гипотезы сравнение математических ожиданий проводят либо параметрическими, либо непараметрическими методами.
Сравнение дисперсий проводят тогда, когда требуется установить отличие рассеивания показателя качества от номинального. Для этого проверяют гипотезу:
.
Ряд иных постановок задач одномерной статистики приведён ниже. Не меньшее значение, чем задачи проверки гипотез, имеют задачи оценивания параметров. Они, как и задачи проверки гипотез, в зависимости от используемой вероятностной модели ситуации делятся на параметрические и непараметрические.
В параметрических задачах оценивания принимают вероятностную модель, согласно которой результаты наблюдений рассматривают как реализации n независимых случайных величин с функцией распределения F(x;θ). Здесь θ — неизвестный параметр, лежащий в пространстве параметров Θ заданном используемой вероятностной моделью. Задача оценивания состоит в определении точечной оценок и доверительных границ (либо доверительной области) для параметра θ.
Параметр θ — либо число, либо вектор фиксированной конечной размерности. Так, для нормального распределения θ = (m,σ2) — двумерный вектор, для биномиального θ = p — число, для гамма-распределения θ = (a,b,c) — трёхмерный вектор, и так далее.
В современной математической
статистике разработан ряд общих
методов определения оценок и
доверительных границ — метод
моментов, метод максимального
Метод моментов основан на использовании выражений для моментов рассматриваемых случайных величин через параметры их функций распределения. Оценки метода моментов получают, подставляя выборочные моменты вместо теоретических в функции, выражающие параметры через моменты.
В методе максимального правдоподобия, разработанном в основном Р. А. Фишером, в качестве оценки параметра θ берут значение θ * , для которого максимальна так называемая функция правдоподобия
,
где — результаты наблюдений; f(x,θ) — их плотность распределения, зависящая от параметра θ, который нужно оценить.
Оценки максимального правдоподобия, как правило, эффективны (или асимптотически эффективны) и имеют меньшую дисперсию, чем оценки метода моментов. В отдельных случаях формулы для них выписываются явно (нормальное распределение, экспоненциальное распределение без сдвига). Однако чаще для их нахождения надо численно решать систему трансцендентных уравнений (распределения Вейбулла-Гнеденко, гамма). В подобных случаях целесообразно использовать не оценки максимального правдоподобия, а другие виды оценок, прежде всего одношаговые оценки. В литературе их иногда не вполне точно называют «приближённые оценки максимального правдоподобия». При достаточно больши́х объёмах выборок они имеют столь же хорошие свойства, как и оценки максимального правдоподобия. Поэтому их следует рассматривать не как «приближённые», а как оценки, полученные по другому методу, не менее обоснованному и эффективному, чем метод максимального правдоподобия. Одношаговые оценки вычисляют по явным формулам ([17]).
В непараметрических задачах оценивания принимают вероятностную модель, в которой результаты наблюдений рассматривают как реализации n независимых случайных величин с функцией распределения F(x) общего вида. От F(x) требуют лишь выполнения некоторых условий типа непрерывности, существования математического ожидания и дисперсии и тому подобного. Подобные условия не являются столь жёсткими, как условие принадлежности к определённому параметрическому семейству.
5.3. Непараметрическое оценивание математического ожидания
В непараметрической постановке оценивают либо характеристики случайной величины (математическое ожидание, дисперсию, коэффициент вариации), либо её функцию распределения, плотность и тому подобное. Так, в силу закона больши́х чисел выборочное среднее арифметическое является состоятельной оценкой математического ожидания M(X) (при любой функции распределения F(x) результатов наблюдений, для которой математическое ожидание существует). С помощью центральной предельной теоремы определяют асимптотические доверительные границы
, ,
где γ — доверительная вероятность, — квантиль порядка стандартного нормального распределения N(0;1) с нулевым математическим ожиданием и единичной дисперсией, — выборочное среднее арифметическое, s — выборочное среднеквадратичное отклонение. Термин «асимптотические доверительные границы» означает, что вероятности , , стремятся к , и γ соответственно при , но, вообще говоря, не равны этим значениям при конечных n. Практически асимптотические доверительные границы дают достаточную точность при n порядка 10.
5.4. Непараметрическое оценивание функции распределения
Второй пример непараметрического оценивания — оценивание функции распределения. По теореме Гливенко эмпирическая функция распределения Fn(x) является состоятельной оценкой функции распределения F(x). Если F(x) — непрерывная функция, то на основе теоремы Колмогорова доверительные границы для функции распределения F(x) задают в виде
, ,
где k(γ,n) — квантиль порядка γ распределения статистики Колмогорова при объёме выборки n (напомним, что распределение этой статистики не зависит от F(x)).
Правила определения оценок и доверительных границ в параметрическом случае строятся на основе параметрического семейства распределений F(x;θ). При обработке реальных данных возникает вопрос — соответствуют ли эти данные принятой вероятностной модели? То есть статистической гипотезе о том, что результаты наблюдений имеют функцию распределения из семейства при некотором θ = θ0 Такие гипотезы называют гипотезами согласия, а критерии их проверки — критериями согласия.
Если истинное значение параметра θ = θ0 известно, функция распределения F(x;θ0) непрерывна, то для проверки гипотезы согласия часто применяют критерий Колмогорова, основанный на статистике
,
где Fn(x) — эмпирическая функция распределения.
Если истинное значение параметра θ0 неизвестно, например, при проверке гипотезы о нормальности распределения результатов наблюдения (то есть при проверке принадлежности этого распределения к семейству нормальных распределений), то иногда используют статистику
.
Она отличается от статистики Колмогорова Dn тем, что вместо истинного значения параметра θ0 подставлена его оценка θ * .
Распределение статистики Dn(θ * ) сильно отличается от распределения статистики Dn. В качестве примера рассмотрим проверку нормальности, когда θ = (m,σ2), а . Для этого случая квантили распределений статистик Dn и Dn(θ * ) приведены в таблице 5 (см., например, [18]). Таким образом, квантили отличаются примерно в 1,5 раза.
Таблица 5. Квантили статистик
Dn и Dn(θ * ) при проверке нормальностиp 0,85 0,90 0,95
Квантили порядка p для
Dn 1,138 1,224 1,358 1,480 1,
Квантили порядка p для
Dn(θ * ) 0,775 0,819 0,895 0,955 1,
5.5. Проблема исключения промахов
При первичной обработке статистических данных важной задачей является исключение результатов наблюдений, полученных в результате грубых погрешностей и промахов. Например, при просмотре данных о весе (в килограммах) новорожденных детей наряду с числами 3,500, 2,750, 4,200 может встретиться число 35,00. Ясно, что это промах, и получено ошибочное число при ошибочной записи — запятая сдвинута на один знак, в результате результат наблюдения ошибочно увеличен в 10 раз.
Статистические методы исключения резко выделяющихся результатов наблюдений основаны на предположении, что подобные результаты наблюдений имеют распределения, резко отличающиеся от изучаемых, а потому их следует исключить из выборки.
Простейшая вероятностная модель такова. При нулевой гипотезе результаты наблюдений рассматриваются как реализации независимых одинаково распределённых случайных величин с функцией распределения F(x). При альтернативной гипотезе — такие же, как и при нулевой гипотезе, а Xn соответствует грубой погрешности и имеет функцию распределения G(x) = F(x − c), где c велико. Тогда с вероятностью, близкой к 1 (точнее, стремящейся к 1 при росте объёма выборки),
,
то есть при описании данных в качестве возможной грубой ошибки следует рассматривать Xmax. Критическая область имеет вид
.
Критическое значение d = d(α,n) выбирают в зависимости от уровня значимости α и объёма выборки n из условия(43)
.
Условие (43) эквивалентно при больши́х n и малых α следующему:(44)
.
Если функция распределения результатов наблюдений F(x) известна, то критическое значение d находят из соотношения (44). Если F(x) известна с точностью до параметров, например, известно, что F(x) — нормальная функция распределения, то также разработаны правила проверки рассматриваемой гипотезы [8].
Однако часто вид
функции распределения
Поэтому в ситуации, когда о F(x) нет полной информации, однако известны математическое ожидание M(X) и дисперсия σ2 = D(X) результатов наблюдений , можно использовать непараметрические правила отбраковки, основанные на неравенстве Чебышёва. С помощью этого неравенства найдём критическое значение d = d(α,n) такое, что(45)
.
Так как
,
то соотношение (45) будет выполнено, если(46)
.
По неравенству Чебышёва(47)
,
поэтому для того, чтобы (46) было выполнено, достаточно приравнять правые части формул (46) и (47), то есть определить d из условия(48)
, .
Правило отбраковки, основанное на критическом значении d, вычисленном по формуле (48), использует минимальную информацию о функции распределения F(x) и поэтому исключает лишь результаты наблюдений, весьма далеко отстоящие от основной массы. Другими словами, значение d1, заданное соотношением (43), обычно много меньше, чем значение d2, заданное соотношением (48).
5.6. Многомерный статистический анализ
Перейдём к многомерному статистическому анализу. Его применяют при решении следующих задач:
исследование зависимости между признаками;
классификация объектов или признаков, заданных векторами;
снижение размерности пространства признаков.
При этом результат наблюдений — вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Напомним, что количественный признак — признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному — признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков — часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной шкале. А качественные — на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.
5.7. Корреляция и регрессия
Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами X и Y применяют корреляционный анализ. Если совместное распределение X и Y является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков — критерий хи-квадрат.
Информация о работе Математическая статистика в различных областях