Автор работы: Пользователь скрыл имя, 05 Июня 2013 в 17:51, курсовая работа
Цель данной работы – изучить основы математической статистики и показать практическое применение математической статистики в различных областях.
Для написания данной работы были поставлены следующие задачи:
Изучить литературу соответствующей тематики.
Составить алгоритм программы, реализующей основные статистические методы.
Написать программу, реализующую основные статистические методы.
Решить с помощью созданной программы несколько примеров.
Регрессионный анализ применяют для изучения функциональной зависимости количественного признака Y от количественных признаков . Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi,yi), , и имеет вид
, ,
где — ошибки наблюдений. Иногда предполагают, что — независимые случайные величины с одним и тем же нормальным распределением N(0,σ2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, то есть при произвольном распределении .
Основная задача регрессионного анализа состоит в оценке неизвестных параметров a и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный ещё Гауссом в 1794 году метод наименьших квадратов, то есть находят оценки неизвестных параметров модели a и b из условия минимизации суммы квадратов
по переменным a и b.
Теория регрессионного анализа описана, и расчётные формулы даны в специальной литературе [2], [12], [19]. В этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, то есть точек xi, в которых будут проводиться эксперименты по наблюдению yi — предмет теории планирования эксперимента [20].
5.8. Дисперсионный анализ
Дисперсионный анализ применяют
для изучения влияния качественных
признаков на количественную переменную.
Например, пусть имеются k выборок
результатов измерений
Проверка однородности качества продукции, то есть отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы
.
В дисперсионном анализе разработаны методы проверки подобных гипотез. Теория дисперсионного анализа и расчётные формулы рассмотрены в специальной литературе [22].
Гипотезу H0 проверяют против альтернативной гипотезы H1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р. А. Фишером:(49)
,
где σ2 — выборочная дисперсия в объединённой выборке, то есть
, .
Далее, σ2(j) — выборочная дисперсия в j-й группе,
, , .
Таким образом, первое слагаемое в правой части формулы (49) отражает внутригрупповую дисперсию. Наконец, — межгрупповая дисперсия:
.
Область прикладной статистики, связанную с разложениями дисперсии типа формулы (49), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведённой выше гипотезы H0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение с одной и той же дисперсией. При справедливости H0 первое слагаемое в правой части формулы (49), делённое на σ2, имеет распределение хи-квадрат с k(n − 1) степенями свободы, а второе слагаемое, делённое на σ2, также имеет распределение хи-квадрат, но с (k − 1) степенями свободы, причём первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина
имеет распределение Фишера с (k − 1) степенями свободы числителя и k(n − 1) степенями свободы знаменателя. Гипотеза H0 принимается, если , и отвергается в противном случае, где F1 − α — квантиль порядка 1 − α распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при H1 величина F безгранично увеличивается при росте объёма выборок n. Значения F1 − α берут из соответствующих таблиц [8].
Разработаны непараметрические методы решения классических задач дисперсионного анализа [21], в частности, проверки гипотезы H0.
5.9. Методы классификации
Следующий тип задач многомерного статистического анализа — задачи классификации. Они согласно [2, 20] делятся на три принципиально различных вида — дискриминантный анализ, кластерный анализ, задачи группировки.
5.9.1. Дискриминантный анализ
Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых — результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка — это выборка, для каждого элемента которой указано, к какому классу он относится.
Рассмотрим пример применения
дискриминантного анализа для принятия
решений в технической
5.9.2. Кластерный анализ
Кластерный анализ применяют, когда по статистическим данным нужно разделить элементы выборки на группы. Причём два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений, измеренных у них признаков, а два элемента из разных групп должны быть «далёкими» в том же смысле. В отличие от дискриминантного анализа в кластерном анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластерный анализ может быть применён для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.
Другой вид кластерного анализа — разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластерного анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к единице — своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.
5.9.3. Задачи группировки
Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далёкими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд — возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).
Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластерного анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности [2].
5.10. Снижение размерности
Третий раздел многомерного
статистического анализа —
достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.
5.11. Статистика случайных процессов и временны́х рядов
Методы статистики случайных процессов и временны́х рядов применяют для постановки и решения, в частности, следующих задач:
предсказание будущего развития случайного процесса или временно́го ряда;
управление случайным процессом (временны́м рядом) с целью достижения поставленных целей, например, заданных значений контролируемых параметров;
построение вероятностной модели реального процесса, обычно длящегося во времени, и изучение свойств этой модели.
Пример 49. При внедрении статистического регулирования технологического процесса нужно проверить, что в налаженном состоянии математическое ожидание контролируемого параметра не меняется со временем. Если подобное изменение будет обнаружено, то следует установить подналадочное устройство.
Пример 50. Следящие системы, например, входящие в состав автоматизированной системы управления технологическим процессом, должны выделять полезный сигнал на фоне шумов. Это — задача оценивания (полезного сигнала), в то время как в примере 49 речь шла о задаче проверки гипотезы.
Методы статистики случайных процессов и временных рядов описаны в литературе [2], [22].
5.12. Статистика объектов нечисловой природы
Методы статистики объектов нечисловой природы (статистики нечисловых данных, или нечисловой статистики) применяют всегда, когда результаты наблюдений являются объектами нечисловой природы. Например:
сообщениями о годности или дефектности единиц продукции,
информацией о сортности единиц продукции,
разбиениями единиц продукции на группы соответственно значения контролируемых параметров,
упорядочениями единиц продукции по качеству или инвестиционных проектов по предпочтительности,
фотографиями поверхности изделия, пораженной коррозией,
и так далее. Итак, объекты нечисловой природы — это измерения по качественному признаку, множества, бинарные отношения (разбиения, упорядочения и другое) и многие другие математические объекты [2]. Они используются в различных вероятностно-статистических методах принятия решений. В частности, в задачах управления качеством продукции, а также, например, в медицине и социологии, как для описания результатов приборных измерений, так и для анализа экспертных оценок.
Для описания данных, являющихся
объектами нечисловой природы, применяют,
в частности, таблицы сопряжённости,
а в качестве средних величин
— решения оптимизационных
Для решения параметрических задач оценивания используют оптимизационный подход, метод одношаговых оценок, метод максимального правдоподобия, метод устойчивых оценок. Для решения непараметрических задач оценивания наряду с оптимизационными подходами к оцениванию характеристик используют непараметрические оценки распределения случайного элемента, плотности распределения, функции, выражающей зависимость [2].
В качестве примера методов проверки статистических гипотез для объектов нечисловой природы рассмотрим критерий «хи-квадрат» (обозначают χ2), разработанный К. Пирсоном для проверки гипотезы однородности (другими словами, совпадения) распределений, соответствующих двум независимым выборкам.
Рассматриваются две выборки объёмов n1 и n2, состоящие из результатов наблюдений качественного признака, имеющего k градаций. Пусть m1j и m2j — количества элементов первой и второй выборок соответственно, для которых наблюдается j-я градация, а p1j и p2j — вероятности того, что эта градация будет принята, для элементов первой и второй выборок, .
Для проверки гипотезы однородности распределений, соответствующих двум независимым выборкам
,
применяют критерий χ2 со статистикой
.
Установлено [9], [10], что статистика χ2 при больши́х объёмах выборок n1 и n2 имеет асимптотическое распределение хи-квадрат с (k − 1) степенью свободы.
Пример 51. В таблице приведены данные о содержании серы в углеродистой стали, выплавляемой двумя металлургическими заводами. Проверим, можно ли считать распределения примеси серы в плавках стали этих двух заводов одинаковыми.Распределения плавок стали по процентному содержанию серы
Содержание серы, в % Число плавок
Завод А Завод Б
82 63
535 429
1173 995
1714 1307
Расчёт по данным даёт X2 = 3,39. Квантиль порядка 0,95 распределения хи-квадрат с k − 1 = 3 степенями свободы равен , поэтому гипотезу о совпадении функций распределения нельзя отклонить, а следует принять на уровне значимости α = 0,05.
Выше дано лишь краткое описание содержания прикладной статистики на современном этапе. Подробное изложение конкретных методов содержится в специальной литературе.
Информация о работе Математическая статистика в различных областях