Выборочное наблюдение в статистике

Автор работы: Пользователь скрыл имя, 24 Ноября 2013 в 20:06, лекция

Описание работы

Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.

Файлы: 1 файл

Выборочное наблюдение в статистике.docx

— 35.84 Кб (Скачать файл)

Выборочное наблюдение в статистике

 

Понятие и виды выборочного наблюдения

Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС - N. Отношение n/N называется относительный размер или доля выборки.

Качество результатов  выборочного наблюдения зависит  от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.

Существует 4 способа случайного отбора в выборку:

  1. Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (например, бочонки), которые затем перемешиваются в некоторой емкости (например, в мешке) и выбираются наугад. На практике этот способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.
  2. Механический отбор, согласно которому отбирается каждая (N/n)-я величина генеральной совокупности. Например, если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 100 000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась единица № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т.д. Если единицы генеральной совокупности ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
  3. Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
  4. Особый способ составления выборки представляет собой серийный отбор, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки: повторная или бесповторная.  
При повторном отборе попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку. 
Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, поэтому  применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный  отбор.

Ошибки выборки

Выборочную совокупность можно сформировать по количественному  признаку статистических величин, а  также по альтернативному или  атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором — выборочная доля величин, обозначаемая w. В генеральной совокупности соответственно: генеральная средняя и генеральная доля р.

Разности  — и W — р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.

Величина ошибки выборки  может быть разной для разных выборок  из одной генеральной совокупности, поэтому в статистике определяется средняя ошибка повторной и бесповторной выборки по формулам:

- повторная;

- бесповторная;

где Дв — выборочная дисперсия.

Например, на заводе с численностью работников 1000 чел. проведена 5%-ая случайная  бесповторная выборка с целью  определения среднего стажа работников. Результаты выборочного наблюдения приведены в первых двух столбцах следующей таблицы:

X, лет 
(стаж работы)

f, чел. 
(число работников в выборке)

Xиf

до 1

7

0,5

3,5

38,987

1-2

8

1,5

12,0

14,797

2-3

10

2,5

25,0

1,296

3-4

13

3,5

45,5

5,325

4-5

9

4,5

40,5

24,206

более 5

3

5,5

16,5

20,909

Итого

50

 

 

143,0

105,520


В 3-м столбце определены середины интервалов X (как полусумма нижней и верхней границ интервала), а в 4-м столбце - произведения XИf для нахождения выборочной средней по формуле средней арифметической взвешенной: 
 
= 143,0/50 = 2,86 (года). 
 
Рассчитаем выборочную дисперсию взвешенную: 
= 105,520/50 = 2,110. 
 
Теперь найдем среднюю ошибку бесповторной выборки: 
= 0,200 (лет).

Из формул средних ошибок выборки видно, что ошибка меньше при бесповторной выборке, и, как  доказано в теории вероятностей, она  возникает с вероятностью 0,683 (то есть если провести 1000 выборок из одной  генеральной совокупности, то в 683 из них ошибка не превзойдет средней  ошибки выборки). Такая вероятность (0,683) является невысокой, поэтому она  мало пригодна для практических расчетов, где нужна более высокая вероятность. Чтобы определить ошибку выборки  с более высокой, чем 0,683 вероятностью, рассчитывают предельную ошибку выборки:

где t – коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.

Значения коэффициента доверия t рассчитаны для разных вероятностей и имеются в специальных таблицах (интеграл Лапласа), из которых в статистике широко применяются следующие сочетания:

Вероятность

0,683

0,866

0,950

0,954

0,988

0,990

0,997

0,999

t

1

1,5

1,96

2

2,5

2,58

3

3,5


Задавшись конкретным уровнем  вероятности, выбирают из таблицы соответствующую  ей величину t и определяют предельную ошибку выборки по формуле. 
При этом чаще всего применяют  = 0,95 и t= 1,96, то есть считают, что с вероятностью 95% предельная ошибка выборки в 1,96 раза больше средней. Такая вероятность (0,95) считается стандартной и применяется по умолчанию в расчетах.

В нашем примере про средний стаж работников, определим предельную ошибку выборки при стандартной 95%-ой вероятности (из таблицы берем t = 1,96 для 95%-ой вероятности): = 1,96*0,200 = 0,392 (года).

После расчета предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности. Такой интервал для генеральной средней величины имеет вид

 
 
а для генеральной доли аналогично:


Следовательно, при выборочном наблюдении определяется не одно, точное значение обобщающей характеристики генеральной совокупности, а лишь ее доверительный интервал с заданным уровнем вероятности. И это серьезный недостаток выборочного метода статистики.

В нашем примере про средний стаж работников, определим доверительный интервал генеральной средней - среднего стажа работников: 
2,86 - 0,392 2,86 + 0,392 или 2,468 лет 3,252 лет. 
То есть средний стаж работников на всем заводе лежит в интервале от 2,468 года до 3,252 года.

 

Определение численности  выборки

Разрабатывая программу  выборочного наблюдения, иногда задаются конкретным значением предельной ошибки с уровнем вероятности. Неизвестной  остается минимальная численность  выборки, обеспечивающая заданную точность. Ее можно получить из формул средней  и предельной ошибок в зависимости  от типа выборки. Так, подставляя формулу средней ошибки повторной выборки и формулу средней ошибки бесповторной выборки в формулу предельной ошибки и, решая ее относительно численности выборки, получим следующие формулы: 
для повторной выборки n =  
для бесповторной выборки n = .

Кроме того, при статистических величинах с количественными принаками надо знать и выборочную дисперсию, но к началу расчетов и она не известна. Поэтому она принимается приближенно одним из следующих способов (в приоритетном порядке):

  1. Берется из предыдущих выборочных наблюдений;
  2. Используется правило, согласно которому в размахе вариации укладывается примерно шесть стандартных отклонений ( , а так как , то отсюда );
  3. Используется правило «трех сигм», согласно которому в средней величине укладывается примерно 3 стандартных отклонения ( ; отсюда ).

При изучении не численных  признаков, если даже нет приблизительных  сведений о выборочной доле, принимается w = 0,5, что по формуле дисперсии доли соответствует выборочной дисперсии в максимальном размере Дв = 0,5*(1-0,5) = 0,25.


Информация о работе Выборочное наблюдение в статистике