Математическая статистика в различных областях

Автор работы: Пользователь скрыл имя, 05 Июня 2013 в 17:51, курсовая работа

Описание работы

Цель данной работы – изучить основы математической статистики и показать практическое применение математической статистики в различных областях.
Для написания данной работы были поставлены следующие задачи:
Изучить литературу соответствующей тематики.
Составить алгоритм программы, реализующей основные статистические методы.
Написать программу, реализующую основные статистические методы.
Решить с помощью созданной программы несколько примеров.

Файлы: 1 файл

Курсовая по мат. методам.doc

— 150.00 Кб (Скачать файл)

 

Регрессионный анализ применяют  для изучения функциональной зависимости количественного признака Y от количественных признаков . Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi,yi), , и имеет вид

, ,

 

где  — ошибки наблюдений. Иногда предполагают, что  — независимые  случайные величины с одним и  тем же нормальным распределением N(0,σ2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, то есть при произвольном распределении .

 

Основная задача регрессионного анализа состоит в оценке неизвестных  параметров a и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный ещё Гауссом в 1794 году метод наименьших квадратов, то есть находят оценки неизвестных параметров модели a и b из условия минимизации суммы квадратов

 

 

по переменным a и b.

 

Теория регрессионного анализа описана, и расчётные формулы даны в специальной литературе [2], [12], [19]. В этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, то есть точек xi, в которых будут проводиться эксперименты по наблюдению yi — предмет теории планирования эксперимента [20].

 

5.8. Дисперсионный анализ

 

Дисперсионный анализ применяют  для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок  результатов измерений количественного  показателя качества единиц продукции, выпущенных на k станках, то есть набор  чисел , где j — номер станка, , а n — объём выборки. В распространённой постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение  с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [21].

 

Проверка однородности качества продукции, то есть отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

.

 

В дисперсионном анализе  разработаны методы проверки подобных гипотез. Теория дисперсионного анализа и расчётные формулы рассмотрены в специальной литературе [22].

 

Гипотезу H0 проверяют  против альтернативной гипотезы H1, согласно которой хотя бы одно из указанных  равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р. А. Фишером:(49)

,

 

где σ2 — выборочная дисперсия  в объединённой выборке, то есть

, .

 

Далее, σ2(j) — выборочная дисперсия в j-й группе,

, , .

 

Таким образом, первое слагаемое  в правой части формулы (49) отражает внутригрупповую дисперсию. Наконец,  — межгрупповая дисперсия:

.

 

Область прикладной статистики, связанную с разложениями дисперсии  типа формулы (49), называют дисперсионным  анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведённой выше гипотезы H0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение с одной и той же дисперсией. При справедливости H0 первое слагаемое в правой части формулы (49), делённое на σ2, имеет распределение хи-квадрат с k(n − 1) степенями свободы, а второе слагаемое, делённое на σ2, также имеет распределение хи-квадрат, но с (k − 1) степенями свободы, причём первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

 

 

имеет распределение Фишера с (k − 1) степенями свободы числителя и k(n − 1) степенями свободы знаменателя. Гипотеза H0 принимается, если , и отвергается в противном случае, где F1 − α — квантиль порядка 1 − α распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при H1 величина F безгранично увеличивается при росте объёма выборок n. Значения F1 − α берут из соответствующих таблиц [8].

 

Разработаны непараметрические  методы решения классических задач  дисперсионного анализа [21], в частности, проверки гипотезы H0.

 

5.9. Методы классификации

 

Следующий тип задач  многомерного статистического анализа  — задачи классификации. Они согласно [2, 20] делятся на три принципиально  различных вида — дискриминантный  анализ, кластерный анализ, задачи группировки.

 

5.9.1. Дискриминантный анализ

 

Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных  классов. При этом объекты описывают  в математической модели с помощью  векторов, координаты которых — результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка — это выборка, для каждого элемента которой указано, к какому классу он относится.

 

Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения  ряда параметров продукции требуется  установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, провёденного после определённого периода эксплуатации. Дискриминантный анализ позволяет сократить объём контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным — первый позволяет предсказывать значение качественного признака, а второй — количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы [23].

 

5.9.2. Кластерный анализ

 

Кластерный анализ применяют, когда по статистическим данным нужно  разделить элементы выборки на группы. Причём два элемента группы из одной  и той же группы должны быть «близкими» по совокупности значений, измеренных у них признаков, а два элемента из разных групп должны быть «далёкими» в том же смысле. В отличие от дискриминантного анализа в кластерном анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластерный анализ может быть применён для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.

 

Другой вид кластерного  анализа — разбиение признаков  на группы близких между собой. Показателем  близости признаков может служить выборочный коэффициент корреляции. Цель кластерного анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к единице — своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.

 

5.9.3. Задачи группировки

 

Задачи группировки  решают тогда, когда классы заранее не заданы и не обязаны быть «далёкими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд — возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).

 

Задачи классификации  решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластерного анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности [2].

 

5.10. Снижение размерности

 

Третий раздел многомерного статистического анализа — задачи снижения размерности с целью  сжатия информации. Цель их решения  состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно бо́льшую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и других. Например, в простейшей модели многомерного шкалирования исходные данные — попарные расстояния ρij, ,  между k объектами, а цель расчётов состоит в представлении объектов точками на плоскости. Это даёт возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния sij между точками, соответствующими объектам с номерами i и j, возможно точнее воспроизводили расстояния ρij между этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина

 

 

достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.

 

5.11. Статистика случайных процессов и временны́х рядов

 

Методы статистики случайных  процессов и временны́х рядов  применяют для постановки и решения, в частности, следующих задач:

предсказание будущего развития случайного процесса или временно́го  ряда;

управление случайным  процессом (временны́м рядом) с целью  достижения поставленных целей, например, заданных значений контролируемых параметров;

построение вероятностной модели реального процесса, обычно длящегося во времени, и изучение свойств этой модели.

 

Пример 49. При внедрении  статистического регулирования  технологического процесса нужно проверить, что в налаженном состоянии математическое ожидание контролируемого параметра не меняется со временем. Если подобное изменение будет обнаружено, то следует установить подналадочное устройство.

 

Пример 50. Следящие системы, например, входящие в состав автоматизированной системы управления технологическим  процессом, должны выделять полезный сигнал на фоне шумов. Это — задача оценивания (полезного сигнала), в то время как в примере 49 речь шла о задаче проверки гипотезы.

 

Методы статистики случайных  процессов и временных рядов описаны в литературе [2], [22].

 

5.12. Статистика объектов нечисловой природы

 

Методы статистики объектов нечисловой природы (статистики нечисловых данных, или нечисловой статистики) применяют всегда, когда результаты наблюдений являются объектами нечисловой природы. Например:

сообщениями о годности или дефектности единиц продукции,

информацией о сортности  единиц продукции,

разбиениями единиц продукции  на группы соответственно значения контролируемых параметров,

упорядочениями единиц продукции по качеству или инвестиционных проектов по предпочтительности,

фотографиями поверхности  изделия, пораженной коррозией,

 

и так далее. Итак, объекты  нечисловой природы — это измерения  по качественному признаку, множества, бинарные отношения (разбиения, упорядочения и другое) и многие другие математические объекты [2]. Они используются в различных вероятностно-статистических методах принятия решений. В частности, в задачах управления качеством продукции, а также, например, в медицине и социологии, как для описания результатов приборных измерений, так и для анализа экспертных оценок.

 

Для описания данных, являющихся объектами нечисловой природы, применяют, в частности, таблицы сопряжённости, а в качестве средних величин  — решения оптимизационных задач [2]. В качестве выборочных средних  для измерений в порядковой шкале используют медиану и моду, а в шкале наименований — только моду. О методах классификации нечисловых данных говорилось выше.

 

Для решения параметрических  задач оценивания используют оптимизационный  подход, метод одношаговых оценок, метод максимального правдоподобия, метод устойчивых оценок. Для решения непараметрических задач оценивания наряду с оптимизационными подходами к оцениванию характеристик используют непараметрические оценки распределения случайного элемента, плотности распределения, функции, выражающей зависимость [2].

 

В качестве примера методов  проверки статистических гипотез для  объектов нечисловой природы рассмотрим критерий «хи-квадрат» (обозначают χ2), разработанный К. Пирсоном для проверки гипотезы однородности (другими словами, совпадения) распределений, соответствующих двум независимым выборкам.

 

Рассматриваются две  выборки объёмов n1 и n2, состоящие  из результатов наблюдений качественного  признака, имеющего k градаций. Пусть m1j и m2j — количества элементов первой и второй выборок соответственно, для которых наблюдается j-я градация, а p1j и p2j — вероятности того, что эта градация будет принята, для элементов первой и второй выборок, .

 

Для проверки гипотезы однородности распределений, соответствующих двум независимым выборкам

,

 

применяют критерий χ2 со статистикой

.

 

Установлено [9], [10], что  статистика χ2 при больши́х объёмах  выборок n1 и n2 имеет асимптотическое  распределение хи-квадрат с (k − 1) степенью свободы.

 

Пример 51. В таблице приведены  данные о содержании серы в углеродистой стали, выплавляемой двумя металлургическими заводами. Проверим, можно ли считать распределения примеси серы в плавках стали этих двух заводов одинаковыми.Распределения плавок стали по процентному содержанию серы

Содержание серы, в % Число плавок

Завод А Завод Б

82 63

535 429

1173 995

1714 1307

 

 

Расчёт по данным даёт X2 = 3,39. Квантиль порядка 0,95 распределения хи-квадрат  с k − 1 = 3 степенями свободы равен , поэтому гипотезу о совпадении функций распределения нельзя отклонить, а следует принять на уровне значимости α = 0,05.

 

Выше дано лишь краткое  описание содержания прикладной статистики на современном этапе. Подробное  изложение конкретных методов содержится в специальной литературе.


Информация о работе Математическая статистика в различных областях