Автор работы: Пользователь скрыл имя, 29 Июня 2014 в 14:28, курсовая работа
Целью работы является ознакомление с дисперсионным анализом и апробация его основных положений на статистических данных, собранных по Республике Беларусь.
Предполагается решение следующих задач:
- изучение основных положений факторного анализа и типов факторов;
- изучение основных положений и моделей дисперсионного анализа;
- изучение роли и места дисперсионного анализа при статистических исследованиях;
- практическое применение дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.
т.е. сами средние, вообще говоря, находить не обязательно.
Таким образом, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы H0 о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных [5].
Следует сразу же отметить, что принципиальной разницы между многофакторным и однофакторным дисперсионным анализом нет. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно более экономична, поскольку всего за один запуск решает сразу две задачи: оценивается влияние каждого из факторов и их взаимодействие [3].
Общая схема двухфакторного эксперимента, данные которого обрабатываются дисперсионным анализом имеет вид (рисунок 2.1):
Рисунок 2.1 – Схема двухфакторного эксперимента
Примечание – Источник: [5]
Данные, подвергаемые многофакторному дисперсионному анализу, часто обозначают в соответствии с количеством факторов и их уровней.
Предположив, что в рассматриваемой задаче о качестве различных m партий изделия изготавливались на разных t станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору:
А - партия изделий;
B - станок.
В результате получается переход к задаче двухфакторного дисперсионного анализа.
Все данные представлены в таблице 2.2, в которой по строкам - уровни Ai фактора А, по столбцам — уровни Bj фактора В, а в соответствующих ячейках, таблицы находятся значения показателя качества изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).
Таблица 2.2 – Показатели качества изделий
B1 |
B2 |
… |
Bj |
… |
Bl | |
A1 |
x11l,…,x11k |
x12l,…,x12k |
… |
x1jl,…,x1jk |
… |
x1ll,…,x1lk |
A2 |
x21l,…,x21k |
x22l,…,x22k |
… |
x2jl,…,x2jk |
… |
x2ll,…,x2lk |
… |
… |
… |
… |
… |
… |
… |
Ai |
xi1l,…,xi1k |
xi2l,…,xi2k |
… |
xijl,…,xijk |
… |
xjll,…,xjlk |
… |
… |
… |
… |
… |
… |
… |
Am |
xm1l,…,xm1k |
xm2l,…,xm2k |
… |
xmjl,…,xmjk |
… |
xmll,…,xmlk |
Примечание – Источник: [5]
Двухфакторная дисперсионная модель имеет вид:
где xijk - значение наблюдения в ячейке ij с номером k;
μ - общая средняя;
Fi - эффект, обусловленный влиянием i-го уровня фактора А;
Gj - эффект, обусловленный влиянием j-го уровня фактора В;
Iij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели;
εijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.
Предполагается, что εijk имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.
Групповые средние находятся по формулам:
- в ячейке: ,
по строке:
по столбцу:
общая средняя:
В таблице 2.3 представлен общий вид вычисления значений, с помощью дисперсионного анализа.
Таблица 2.3 – Базовая таблица дисперсионного анализа
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Средние квадраты |
Межгрупповая (фактор А) |
|
m-1 |
|
Межгрупповая (фактор B) |
|
l-1 |
|
Взаимодействие |
|
(m-1)(l-1) |
|
Остаточная |
|
mln - ml |
|
Общая |
|
mln - 1 |
Примечание – Источник: [5]
Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений , , (для модели I с фиксированными уровнями факторов) или отношений , , (для случайной модели II) с соответствующими табличными значениями F – критерия Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями – как в модели I.
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.
С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы:
Q3 = Q – Q1 – Q2 – Q4.
Отклонение от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.
Статистические методы анализа – это методология измерения результатов деятельности человека, то есть перевода качественных характеристик в количественные.
Основные этапы при проведении статистического анализа:
- содержательный анализ исследуемого объекта, системы или процесса. На этом этапе определяется набор входных и выходных параметров (X1 ,..., Xp; Y1 ,..., Yq);
- составление плана сбора исходных данных - значений входных переменных (X1,...,Xp), числа наблюдений n. Этот этап выполняется при активном планировании эксперимента.
- получение исходных данных и ввод их в компьютер. На этом этапе формируются массивы чисел (x1i ,..., xpi ; y1i ,..., yqi), i=1,..., n, где n - объем выборки.
- первичная статистическая обработка данных. На данном этапе формируется статистическое описание рассматриваемых параметров:
а) построение и анализ статистических зависимостей;
б) корреляционный анализ предназначен для оценивания значимости влияния факторов (X1,...,Xp) на отклик Y;
в) дисперсионный анализ используется для оценивания влияния на отклик Y неколичественных факторов (X1,...,Xp) с целью выбора среди них наиболее важных;
г) регрессионный анализ предназначен для определения аналитической зависимости отклика Y от количественных факторов X;
- интерпретация результатов в терминах поставленной задачи [3].
В таблице 3.1 приведены статистические методы, с помощью которых решаются аналитические задачи. В соответствующих ячейках таблицы находятся частоты применения статистических методов:
- метка «-» - метод не применяется;
- метка «+» - метод применяется;
- метка «++» - метод широко применяется;
- метка «+++» - применение метода представляет особый интерес.
Дисперсионный анализ подобно t-критерию Стьюдента, позволяет оценить различия между выборочными средними; однако, в отличие от t-критерия, в нем нет ограничений на количество сравниваемых средних. Таким образом, вместо того, чтобы поставить вопрос о различии двух выборочных средних, можно оценить, различаются ли два, три четыре, пять или k средних.
Дисперсионный анализ позволяет иметь дело с двумя или более независимыми переменными (признаками, факторами) одновременно, оценивая не только эффект каждой из них по отдельности, но и эффекты взаимодействия между ними.
Таблица 3.1 – Применение статистических методов при решении аналитических задач
Аналитические задачи, возникающие |
Методы |
Методы поверки |
Методы |
Методы |
Методы анализа |
Методы |
Методы |
Методы |
Методы анализа |
Методы анализа |
Задачи горизонталь-ного |
++ |
+ |
- |
+ |
+ |
- |
- |
- |
- |
- |
Задачи вертикального |
++ |
- |
- |
+ |
++ |
++ |
+ |
+ |
- |
- |
Задачи трендового |
++ |
- |
+++ |
++ |
- |
- |
- |
- |
++ |
+++ |
Задачи анализа |
++ |
+ |
+ |
- |
+ |
+++ |
++ |
++ |
- |
++ |
Задачи сравнитель- ного |
++ |
- |
+ |
+ |
++ |
+++ |
++ |
++ |
- |
+ |
Задачи факторного анализа |
+ |
+ |
++ |
- |
++ |
+++ |
+ |
++ |
- |
+ |