Автор работы: Пользователь скрыл имя, 08 Декабря 2012 в 08:24, лабораторная работа
работа содержит 7 заданий с решениями по "Статистике"
Расчетная работа
"Статистическая обработка
Выборка объемом n = 150 была получена посредством моделирования. В итоге получились следующие ниже значения предположительно нормально распределенной случайной величины. Итак, первичный вид выборки:
-2,2663; -3,1005; -9,6268; -7,1273; 1,34; -1,8131; -4,9204;
6,825; 4,3348; -2,1447; 4,8589; -5,7173; 10,238; 0,039025; 3,7338; 2,698;
-3,459; 5,4203; 3,1469; -3,7803; 1,1941; -6,0164; -1,5411;
-7,6896; -3,1013; -1,0742; 5,4099; -0,85503; -4,0515; -0,028564; -5,8147;
-3,2353; 7,8614; 0,65102; -4,0213; -0,51217; -3,3379; -3,5283;
-1,1005; -2,2532; 0,70424; 7,9068; -1,4853; -1,7563; 4,3627; 4,1061;
2,9864; 0,19821; -5,6325; 3,4121; -1,3595; 0,8202; -2,3666; 2,2589;
-1,3554;
-2,8558; -7,0831; -5,2847; 8,8333; 10,539; -5,1126; -0,56048; 0,3145;
-2,1966; 9,1751; 2,7997; -3,0997; -6,2346; 0,47576; 0,33204; -6,8611;
3,3752; 0,28329; 6,616; -1,1624; 2,5752; -3,26; 0,070236; 6,0647; 7,0545;
0,43264; 12,727;
-0,42882; 6,4341; 1,2383; -1,6601; 9,2209; 1,4354; -1,3462; -0,91109;
1,636; -0,031684; 0,32186; -0,84173; -4,8086; -0,13983;-7,7099; -0,79202;
0,4557; 1,6831; 4,5952; -5,8574; -6,0651; 10,081; 13,521; 4,5776; -2,8402;
2,9487; 0,96445;
-10,339; 0,34472; -0,6112; 2,2698; 0,45989; -17,513; -5,6579; -7,3389;
-3,9622; -9,2861; -1,3279; -4,6172; 2,9394;-3,4925; 2,9293; -6,9443;
-9,5576; -4,9706; 3,0601; 5,7437; -3,0592; 7,7909; -0,61004; 0,61176;
-1,4529; -2,779; 1,3088;
2,8673; -1,0364; -13,453; 10,779; -4,7871; 9,6133; 5,0815; -13,38; -0,026137;
1,2551; 3,9601; 2,9612; 2,8873; 1,4535.
-17,513 |
-13,453 |
-13,38 |
-10,339 |
-9,6268 |
-9,5576 |
-9,2861 |
-7,7099 |
-7,6896 |
-7,3389 |
-7,1273 |
-7,0831 |
-6,9443 |
-6,8611 |
-6,2346 |
-6,0651 |
-6,0164 |
-5,8574 |
-5,8147 |
-5,7173 |
-5,6579 |
-5,6325 |
-5,2847 |
-5,1126 |
-4,9706 |
-4,9204 |
-4,8086 |
-4,7871 |
-4,6172 |
-4,0515 |
-4,0213 |
-3,9622 |
-3,7803 |
-3,5283 |
-3,4925 |
-3,459 |
-3,3379 |
-3,26 |
-3,2353 |
-3,1013 |
-3,1005 |
-3,0997 |
-3,0592 |
-2,8558 |
-2,8402 |
-2,779 |
-2,3666 |
-2,2663 |
-2,2532 |
-2,1966 |
-2,1447 |
-1,8131 |
-1,7563 |
-1,6601 |
-1,5411 |
-1,4853 |
-1,4529 |
-1,3595 |
-1,3554 |
-1,3462 |
-1,3279 |
-1,1624 |
-1,1005 |
-1,0742 |
-1,0364 |
-0,91109 |
-0,85503 |
-0,84173 |
-0,79202 |
-0,6112 |
-0,61004 |
-0,56048 |
-0,51217 |
-0,42882 |
-0,13983 |
-0,031684 |
-0,028564 |
-0,026137 |
0,039025 |
0,070236 |
0,19821 |
0,28329 |
0,3145 |
0,32186 |
0,33204 |
0,34472 |
0,43264 |
0,4557 |
0,45989 |
0,47576 |
0,61176 |
0,65102 |
0,70424 |
0,8202 |
0,96445 |
1,1941 |
1,2383 |
1,2551 |
1,3088 |
1,34 |
1,4354 |
1,4535 |
1,636 |
1,6831 |
2,2589 |
2,2698 |
2,5752 |
2,698 |
2,7997 |
2,8673 |
2,8873 |
2,9293 |
2,9394 |
2,9487 |
2,9612 |
2,9864 |
3,0601 |
3,1469 |
3,3752 |
3,4121 |
3,7338 |
3,9601 |
4,1061 |
4,3348 |
4,3627 |
4,5776 |
4,5952 |
4,8589 |
5,0815 |
5,4099 |
5,4203 |
5,7437 |
6,0647 |
6,4341 |
6,616 |
6,825 |
7,0545 |
7,7909 |
7,8614 |
7,9068 |
8,8333 |
9,1751 |
9,2209 |
9,6133 |
10,081 |
10,238 |
10,539 |
10,779 |
12,727 |
13,521 |
1.3. Представление выборки в группированном виде. Такая форма представления выборки из генеральной совокупности связана с разбиением области задания случайной величины на L интервалов группирования. При этом известно только количество элементов выборки, попавших в некоторый интервал и последовательность границ интервалов разбиения.
При этом первичная обработка обычно начинается с отыскания минимального xmin и максимального xmax значений исходных статистических данных, а также вычисления размаха варьирования R=xmax–xmin. Для исходных данных находим:
xmin= -17,513 |
xmax=13,521 |
R=31,034 |
Следующий этап первичной обработки статистических данных – группировка. Для этого промежуток [xmin, xmax] разбивают на m интервалов (чаще всего одинаковой длины) и подсчитывают число nj значений, которые попали в j-й интервал. Обычно выбирают m=7¸20 интервалов. На практике для определения длины интервала часто используют эмпирическую формулу Стэрджеса:
где n – объем исходного статистического ряда. Таким образом, L=1+3,322lg(143)=8.
За начало первого интервала
рекомендуется принимать
В соответствии с полученными выше результатами, определяем оптимальную длину интервала:
После этого строим систему интервалов и создаем интервальный вариационный ряд – Таблица 1.
Таблица 1: Интервальный вариационный ряд.
№ |
x-h/2 |
x+h/2 |
xi |
ni |
wi |
ni/h |
Накопленные частоты |
1 |
-17,51 |
-13,63 |
-15,57 |
1 |
0,01 |
0,26 |
0,01 |
2 |
-13,63 |
-9,75 |
-11,69 |
3 |
0,02 |
0,77 |
0,03 |
3 |
-9,75 |
-5,88 |
-7,81 |
13 |
0,09 |
3,35 |
0,12 |
4 |
-5,88 |
-2,00 |
-3,94 |
34 |
0,23 |
8,76 |
0,34 |
5 |
-2,00 |
1,88 |
-0,06 |
53 |
0,35 |
13,66 |
0,70 |
6 |
1,88 |
5,76 |
3,82 |
28 |
0,19 |
7,22 |
0,88 |
7 |
5,76 |
9,64 |
7,70 |
12 |
0,08 |
3,09 |
0,96 |
8 |
9,64 |
13,761 |
11,58 |
6 |
0,04 |
1,55 |
1,00 |
В данной таблице wi = ni/n – относительные частоты, ni/h – плотность частот.
Для нахождения числовых характеристик выборки рассмотрим середины полученных интервалов . Все промежуточные вычисления представлены в таблице 2.
Таблица 2: Промежуточные вычисления при нахождении числовых характеристик выборки.
|
|
|
|
|
|
|
| ||
-15,57 |
1 |
-15,57 |
-15,44 |
238,38 |
242,53 |
-3777,01 |
58820,81 |
-3680,38 |
56822,895 |
-11,69 |
3 |
-35,08 |
-11,56 |
400,91 |
410,26 |
-4797,6 |
56103,79 |
-4634,56 |
53576,13 |
-7,81 |
13 |
-101,59 |
-7,68 |
766,95 |
793,94 |
-6204,54 |
48487,69 |
-5890,82 |
45246,62 |
-3,94 |
34 |
-133,81 |
-3,80 |
491,38 |
526,63 |
-2072,62 |
8157,06 |
-1868,04 |
7101,596 |
-0,06 |
53 |
-2,988 |
0,08 |
0,32 |
0,17 |
-0,0095 |
0,000 |
0,02479 |
0,002 |
3,82 |
28 |
107,04 |
3,96 |
438,39 |
409,20 |
1564,33 |
5980,24 |
1734,663 |
6863,84 |
7,70 |
12 |
92,42 |
7,84 |
736,86 |
711,87 |
5482,933 |
42230,23 |
5774,113 |
45246,67 |
11,58 |
6 |
69,49 |
11,72 |
823,50 |
804,77 |
9320,33 |
107942,32 |
9647,612 |
113025,39 |
Сумма |
-20,094 |
3899,37 |
-484,19 |
327722,13 |
1082,612 |
327883,16 |
Итак, используя промежуточные вычисления таблицы 2, представим расчет основных числовых характеристик изучаемой случайной величины. Итак,
2.1. Выборочным средним называется величина
2.2. Выборочной дисперсией (смещенной, состоятельной оценкой дисперсии) называется величина
2.4. Среднеквадратичным отклонением называется корень квадратный из выборочной дисперсии
2.5. Исправленным среднеквадратичным отклонением называется величина
2.6. Выборочными начальными моментами порядков k=2,3,4 называются величины
Тогда , , .
2.7. Выборочными центральными моментами порядка k=3,4 называются величины
Тогда , .
2.8. Выборочным коэффициентом асимметрии называется величина
2.9. Выборочным коэффициентом эксцесса называется величина
2.10. Модой называется значение во множестве наблюдений, которое встречается наиболее часто. В нашем случае .
2.11. Медианой (50-й процентилью, квантилью 0,5) называется возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. В нашем случае
2.12. Выборочные квантили порядка =0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9.
-кванти́ль (или квантиль порядка ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей . Тогда
3.Графическое представление выборки:
Гистограмма для данной выборки представлена на рисунке 1.
Рис.1: Гистограмма группированной выборки.
Рис.2: Полигон частот группированной выборки.
Рис.3: Кумулята группированной выборки.
Рис.4: Эмпирическая функция распределения.
Оценивание проводят с помощью оценок – статистик, являющихся основой для оценивания неизвестного параметра распределения. Оценивание бывает двух видов – точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание – способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения.
Итак, требуется оценить параметры m и σ (или σ2) по результатам наблюдений. Оценки обозначим m* и (σ2)* соответственно. Обычно в качестве оценки m* математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки (σ2)* дисперсии σ2 используют выборочную дисперсию s2, т.е. m* = , (σ2)* = s2.
4.1. Метод моментов.
С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов
где x1, x2,…, xn – выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.
В прикладной статистике метод анализа данных называется методом моментов, если он использует статистику
(1)
где g: Rq → Rk – некоторая функция (здесь k – число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f(x) входит в заранее известное статистику параметрическое семейство {f(x;θ), θєΘ}, т.е. f(x) = f(x;θ0) при некотором θ0. Здесь Θ – заранее заданное k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, а конкретное значение параметра θ0 статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки: