Автор работы: Пользователь скрыл имя, 24 Ноября 2013 в 20:06, лекция
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.
Выборочное наблюдение в статистике
Понятие и виды выборочного наблюдения
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.
Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС - N. Отношение n/N называется относительный размер или доля выборки.
Качество результатов выборочного наблюдения зависит от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.
Существует 4 способа случайного отбора в выборку:
Качество выборочных наблюдений
зависит и от типа выборки: повторная или бесповторная.
При повторном отборе
попавшие в выборку статистические величины
или их серии после использования возвращаются
в генеральную совокупность, имея шанс
попасть в новую выборку. При этом у всех
величин генеральной совокупности одинаковая
вероятность включения в выборку.
Бесповторный отбор
означает, что попавшие в выборку статистические
величины или их серии после использования
не возвращаются в генеральную совокупность,
а потому для остальных величин последней
повышается вероятность попадания в следующую
выборку.
Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.
Ошибки выборки
Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором — выборочная доля величин, обозначаемая w. В генеральной совокупности соответственно: генеральная средняя и генеральная доля р.
Разности — и W — р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.
Величина ошибки выборки
может быть разной для разных выборок
из одной генеральной
- повторная;
- бесповторная;
где Дв — выборочная дисперсия.
Например, на заводе с численностью работников 1000 чел. проведена 5%-ая случайная бесповторная выборка с целью определения среднего стажа работников. Результаты выборочного наблюдения приведены в первых двух столбцах следующей таблицы:
X, лет |
f, чел. |
Xи |
Xиf |
|
до 1 |
7 |
0,5 |
3,5 |
38,987 |
1-2 |
8 |
1,5 |
12,0 |
14,797 |
2-3 |
10 |
2,5 |
25,0 |
1,296 |
3-4 |
13 |
3,5 |
45,5 |
5,325 |
4-5 |
9 |
4,5 |
40,5 |
24,206 |
более 5 |
3 |
5,5 |
16,5 |
20,909 |
Итого |
50 |
|
143,0 |
105,520 |
В 3-м столбце определены
середины интервалов X (как полусумма
нижней и верхней границ интервала), а
в 4-м столбце - произведения XИf для
нахождения выборочной средней по формуле
средней арифметической взвешенной:
= 143,0/50 = 2,86 (года).
Рассчитаем выборочную дисперсию взвешенную:
= 105,520/50 = 2,110.
Теперь найдем среднюю ошибку бесповторной
выборки:
= 0,200 (лет).
Из формул средних ошибок
выборки видно, что ошибка меньше
при бесповторной выборке, и, как
доказано в теории вероятностей, она
возникает с вероятностью 0,683 (то
есть если провести 1000 выборок из одной
генеральной совокупности, то в 683 из
них ошибка не превзойдет средней
ошибки выборки). Такая вероятность
(0,683) является невысокой, поэтому она
мало пригодна для практических расчетов,
где нужна более высокая
где t – коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.
Значения коэффициента доверия t рассчитаны для разных вероятностей и имеются в специальных таблицах (интеграл Лапласа), из которых в статистике широко применяются следующие сочетания:
Вероятность |
0,683 |
0,866 |
0,950 |
0,954 |
0,988 |
0,990 |
0,997 |
0,999 |
t |
1 |
1,5 |
1,96 |
2 |
2,5 |
2,58 |
3 |
3,5 |
Задавшись конкретным уровнем
вероятности, выбирают из таблицы соответствующую
ей величину t и определяют
предельную ошибку выборки по формуле.
При этом чаще всего применяют
= 0,95 и t= 1,96, то есть
считают, что с вероятностью 95% предельная
ошибка выборки в 1,96 раза больше средней.
Такая вероятность (0,95) считается стандартной
и применяется по умолчанию в расчетах.
В нашем примере про средний стаж работников, определим предельную ошибку выборки при стандартной 95%-ой вероятности (из таблицы берем t = 1,96 для 95%-ой вероятности): = 1,96*0,200 = 0,392 (года).
После расчета предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности. Такой интервал для генеральной средней величины имеет вид
а для генеральной доли аналогично:
.
Следовательно, при выборочном наблюдении
определяется не одно, точное значение
обобщающей характеристики генеральной
совокупности, а лишь ее доверительный интервал
с заданным уровнем вероятности. И это
серьезный недостаток выборочного
метода статистики.
В нашем примере
про средний стаж работников, определим доверительный интервал
генеральной средней - среднего стажа
работников:
2,86 - 0,392
2,86 + 0,392 или 2,468 лет
3,252 лет.
То есть средний стаж работников на всем
заводе лежит в интервале от 2,468 года до
3,252 года.
Определение численности выборки
Разрабатывая программу
выборочного наблюдения, иногда задаются
конкретным значением предельной ошибки
с уровнем вероятности. Неизвестной
остается минимальная численность
выборки, обеспечивающая заданную точность.
Ее можно получить из формул средней
и предельной ошибок в зависимости
от типа выборки. Так, подставляя формулу
средней ошибки повторной выборки и формулу
средней ошибки бесповторной
выборки в формулу предельной ошибки и, решая ее относительно численности
выборки, получим следующие формулы:
для повторной выборки n =
для бесповторной выборки n =
.
Кроме того, при статистических величинах с количественными принаками надо знать и выборочную дисперсию, но к началу расчетов и она не известна. Поэтому она принимается приближенно одним из следующих способов (в приоритетном порядке):
При изучении не численных признаков, если даже нет приблизительных сведений о выборочной доле, принимается w = 0,5, что по формуле дисперсии доли соответствует выборочной дисперсии в максимальном размере Дв = 0,5*(1-0,5) = 0,25.