Статистическая обработка выборки

Автор работы: Пользователь скрыл имя, 08 Декабря 2012 в 08:24, лабораторная работа

Описание работы

работа содержит 7 заданий с решениями по "Статистике"

Файлы: 1 файл

Лабораторная работа тервер.doc

— 1.39 Мб (Скачать файл)

Расчетная работа

"Статистическая обработка выборки"

 

    1.  Получение выборки объема n  предположительно нормально распределенной случайной величины. 

 Выборка объемом n = 150 была получена посредством моделирования. В итоге получились следующие ниже значения предположительно нормально распределенной случайной величины. Итак, первичный вид выборки:

-2,2663; -3,1005; -9,6268; -7,1273; 1,34; -1,8131; -4,9204; 6,825; 4,3348; -2,1447; 4,8589; -5,7173; 10,238; 0,039025; 3,7338; 2,698; -3,459;  5,4203;  3,1469; -3,7803; 1,1941; -6,0164; -1,5411; -7,6896; -3,1013; -1,0742; 5,4099; -0,85503; -4,0515; -0,028564; -5,8147; -3,2353; 7,8614; 0,65102; -4,0213; -0,51217;  -3,3379; -3,5283; -1,1005; -2,2532; 0,70424; 7,9068; -1,4853; -1,7563; 4,3627; 4,1061; 2,9864; 0,19821; -5,6325; 3,4121; -1,3595; 0,8202; -2,3666; 2,2589; -1,3554;  
-2,8558; -7,0831; -5,2847; 8,8333; 10,539; -5,1126; -0,56048; 0,3145; -2,1966; 9,1751; 2,7997; -3,0997; -6,2346; 0,47576; 0,33204; -6,8611; 3,3752; 0,28329; 6,616; -1,1624; 2,5752; -3,26; 0,070236; 6,0647; 7,0545; 0,43264; 12,727; 
-0,42882; 6,4341; 1,2383; -1,6601; 9,2209; 1,4354; -1,3462; -0,91109; 1,636; -0,031684; 0,32186; -0,84173; -4,8086; -0,13983;-7,7099; -0,79202; 0,4557; 1,6831; 4,5952; -5,8574; -6,0651; 10,081; 13,521; 4,5776; -2,8402; 2,9487; 0,96445; 
-10,339; 0,34472; -0,6112; 2,2698; 0,45989; -17,513; -5,6579; -7,3389; -3,9622; -9,2861; -1,3279; -4,6172; 2,9394;-3,4925; 2,9293; -6,9443; -9,5576; -4,9706; 3,0601; 5,7437; -3,0592; 7,7909; -0,61004; 0,61176; -1,4529; -2,779; 1,3088; 
2,8673; -1,0364; -13,453; 10,779; -4,7871; 9,6133; 5,0815; -13,38; -0,026137; 1,2551; 3,9601; 2,9612; 2,8873; 1,4535.

 

    1. Представление выборки в виде вариационного ряда (Вариационным (статистическим) рядом называется таблица, первая строка которой содержит в порядке возрастания элементы xi, а вторая – их частоты ni) не приведено, так как каждое значение случайной величины встречается в данной выборке только один раз. Таким образом, представление таблицы, где в первой строке стоят выше приведенные значения случайной величины, а во второй единицы, избыточно. Представим здесь лишь упорядоченный вид выборки:

-17,513

-13,453

-13,38

-10,339

-9,6268

-9,5576

-9,2861

-7,7099

-7,6896

-7,3389

-7,1273

-7,0831

-6,9443

-6,8611

-6,2346

-6,0651

-6,0164

-5,8574

-5,8147

-5,7173

-5,6579

-5,6325

-5,2847

-5,1126

-4,9706

-4,9204

-4,8086

-4,7871

-4,6172

-4,0515

-4,0213

-3,9622

-3,7803

-3,5283

-3,4925

-3,459

-3,3379

-3,26

-3,2353

-3,1013

-3,1005

-3,0997

-3,0592

-2,8558

-2,8402

-2,779

-2,3666

-2,2663

-2,2532

-2,1966

-2,1447

-1,8131

-1,7563

-1,6601

-1,5411

-1,4853

-1,4529

-1,3595

-1,3554

-1,3462

-1,3279

-1,1624

-1,1005

-1,0742

-1,0364

-0,91109

-0,85503

-0,84173

-0,79202

-0,6112

-0,61004

-0,56048

-0,51217

-0,42882

-0,13983

-0,031684

-0,028564

-0,026137

0,039025

0,070236

0,19821

0,28329

0,3145

0,32186

0,33204

0,34472

0,43264

0,4557

0,45989

0,47576

0,61176

0,65102

0,70424

0,8202

0,96445

1,1941

1,2383

1,2551

1,3088

1,34

1,4354

1,4535

1,636

1,6831

2,2589

2,2698

2,5752

2,698

2,7997

2,8673

2,8873

2,9293

2,9394

2,9487

2,9612

2,9864

3,0601

3,1469

3,3752

3,4121

3,7338

3,9601

4,1061

4,3348

4,3627

4,5776

4,5952

4,8589

5,0815

5,4099

5,4203

5,7437

6,0647

6,4341

6,616

6,825

7,0545

7,7909

7,8614

7,9068

8,8333

9,1751

9,2209

9,6133

10,081

10,238

10,539

10,779

12,727

13,521


 

1.3. Представление выборки в группированном виде. Такая форма представления выборки из генеральной совокупности связана с разбиением области задания случайной величины на L интервалов группирования. При этом известно только количество элементов выборки, попавших в некоторый интервал и последовательность границ интервалов разбиения.

При этом первичная обработка обычно начинается с отыскания минимального xmin и максимального xmax значений исходных статистических данных, а также вычисления размаха варьирования R=xmax–xmin. Для исходных данных находим:

 

xmin= -17,513

xmax=13,521

R=31,034


 

Следующий этап первичной обработки  статистических данных – группировка. Для этого промежуток [xmin, xmax] разбивают на m интервалов (чаще всего одинаковой длины) и подсчитывают число nj значений, которые попали в j-й интервал. Обычно выбирают m=7¸20 интервалов. На практике для определения длины интервала часто используют эмпирическую формулу Стэрджеса:

,

где n – объем исходного статистического ряда. Таким образом, L=1+3,322lg(143)=8.

За начало первого интервала  рекомендуется принимать величину, равную (xmin–h/2). Тогда, если x1 – начало первого интервала, то x2=x1+h – начало второго и т.д. Построение интервалов продолжают до тех пор, пока начало следующего по порядку интервала не будет равным или большим xmax. После установления шкалы интервалов приступают к группировке исходных статистических данных.

В соответствии с полученными выше результатами, определяем оптимальную  длину интервала:

.

После этого строим систему интервалов и создаем интервальный вариационный ряд – Таблица 1.

Таблица 1: Интервальный вариационный ряд.

x-h/2

x+h/2

xi

ni

wi

ni/h

Накопленные частоты

1

-17,51

-13,63

-15,57

1

0,01

0,26

0,01

2

-13,63

-9,75

-11,69

3

0,02

0,77

0,03

3

-9,75

-5,88

-7,81

13

0,09

3,35

0,12

4

-5,88

-2,00

-3,94

34

0,23

8,76

0,34

5

-2,00

1,88

-0,06

53

0,35

13,66

0,70

6

1,88

5,76

3,82

28

0,19

7,22

0,88

7

5,76

9,64

7,70

12

0,08

3,09

0,96

8

9,64

13,761

11,58

6

0,04

1,55

1,00


 

В данной таблице wi = ni/n – относительные частоты, ni/h – плотность частот.

 

  1. Нахождение числовых характеристик выборки.

Для нахождения числовых характеристик  выборки рассмотрим середины полученных интервалов . Все промежуточные вычисления представлены в таблице 2.

 

Таблица 2: Промежуточные вычисления при нахождении числовых характеристик  выборки.

-15,57

1

-15,57

-15,44

238,38

242,53

-3777,01

58820,81

-3680,38

56822,895

-11,69

3

-35,08

-11,56

400,91

410,26

-4797,6

56103,79

-4634,56

53576,13

-7,81

13

-101,59

-7,68

766,95

793,94

-6204,54

48487,69

-5890,82

45246,62

-3,94

34

-133,81

-3,80

491,38

526,63

-2072,62

8157,06

-1868,04

7101,596

-0,06

53

-2,988

0,08

0,32

0,17

-0,0095

0,000

0,02479

0,002

3,82

28

107,04

3,96

438,39

409,20

1564,33

5980,24

1734,663

6863,84

7,70

12

92,42

7,84

736,86

711,87

5482,933

42230,23

5774,113

45246,67

11,58

6

69,49

11,72

823,50

804,77

9320,33

107942,32

9647,612

113025,39

Сумма

 

-20,094

   

3899,37

-484,19

327722,13

1082,612

327883,16


 

Итак, используя промежуточные  вычисления таблицы 2, представим расчет основных числовых характеристик изучаемой  случайной величины. Итак,

2.1. Выборочным средним называется величина

.

2.2. Выборочной дисперсией (смещенной, состоятельной оценкой дисперсии) называется величина

.

    1. Исправленной  выборочной дисперсией (несмещенной, состоятельной оценкой дисперсии) называется величина

.

2.4. Среднеквадратичным отклонением называется корень квадратный из выборочной дисперсии

2.5. Исправленным среднеквадратичным отклонением называется величина

2.6. Выборочными начальными моментами порядков k=2,3,4 называются величины

, k=2,3,4.

Тогда , , .

2.7. Выборочными центральными моментами порядка k=3,4 называются величины

, k=3, 4.

Тогда , .

2.8. Выборочным коэффициентом асимметрии называется величина

.

2.9. Выборочным коэффициентом эксцесса называется величина

.

2.10. Модой называется значение во множестве наблюдений, которое встречается наиболее часто. В нашем случае .

2.11. Медианой (50-й процентилью, квантилью 0,5) называется возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. В нашем случае

2.12. Выборочные квантили порядка =0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9.

-кванти́ль (или квантиль  порядка  ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей . Тогда

 

 

3.Графическое представление  выборки:

    1. Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиной h, а высотами  плотность частоты wi.

 

Гистограмма для данной выборки  представлена на рисунке 1.

Рис.1: Гистограмма группированной выборки.

 

    1. Ломаная, соединяющая точки (хj, nj), i=1,…,L, называется полигоном частот.

 

Рис.2: Полигон частот группированной выборки.

 

    1.  Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости.

 

Рис.3: Кумулята группированной выборки.

 

    1. Эмпирической функцией распределения называется отношение F(x)=nX/n, где nX равно числу элементов выборки, значения которых меньше или равны заданному х.

Рис.4: Эмпирическая функция распределения.

 

  1. Статистическое оценивание параметров.

Оценивание проводят с помощью  оценок – статистик, являющихся основой  для оценивания неизвестного параметра распределения. Оценивание бывает двух видов – точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание – способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения.

Итак, требуется оценить параметры  m и σ (или σ2) по результатам наблюдений. Оценки обозначим m* и (σ2)* соответственно. Обычно в качестве оценки m* математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки (σ2)* дисперсии σ2 используют выборочную дисперсию s2, т.е. m* = , (σ2)* = s2.

 

4.1. Метод моментов.

С какой оценки начинать? Одним  из наиболее известных и простых  в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов

где x1, x2,…, xn – выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.

В прикладной статистике метод анализа  данных называется методом моментов, если он использует статистику

                                             (1)

где g: Rq → Rk – некоторая функция (здесь k – число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f(x) входит в заранее известное статистику параметрическое семейство {f(x;θ), θєΘ}, т.е. f(x) = f(x;θ0) при некотором θ0. Здесь Θ – заранее заданное k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, а конкретное значение параметра θ0 статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки:

Информация о работе Статистическая обработка выборки