Автор работы: Пользователь скрыл имя, 07 Ноября 2015 в 23:45, лекция
1. Случайные ошибки выборки, их независимость от величины выборки.
2. Пример систематической ошибки.
3. Виды систематических ошибок.
3. Виды систематических ошибок.
Ошибки выборки подразделяются на случайные и систематические. Случайные ошибки уменьшаются при возрастании объема выборочной совокупности. Допустим, что мы будем подбрасывать монету и записывать, сколько раз она упадет орлом вверх. При нескольких бросаниях мы можем получить, что случаев выпадения орлом вверх будет гораздо больше половины из всех бросаний. Допустим, бросали 10 раз, из них выпало 7 случаев орлом вверх. Но если мы будем увеличивать число подбрасываний, то тогда может получиться два варианта. Либо число случаев с орлом вверх будет приближаться к половине подбрасываний, например, 100 подбрасываний даст 49 таких случаев. Либо число случаев с орлом вверх будет оставаться около некоторой определенной пропорции, например, 66%.
В первом случае мы будем говорить о случайной ошибке. Ее отличительный признак состоит в том, что отклонение числа выпадений орла от 50% будет стремиться к тому, чтобы быть меньше любого наперед заданного числа. Допустим, что мы зададим отклонение в 5%, то при достаточном подбрасывании можно прийти к отклонению от 50% меньше интервала в 5%. А если зададим отклонение в 1%, то снова, увеличив число подбрасываний, получим рано или поздно отклонение от 50% меньше 1%.
При систематической ошибке число отклонений будет колебаться вокруг определенной константы или даже возрастать. Значит, наша монета не является симметричной, или существует еще какая-то постоянно действующая причина, влияющая на результат подбрасывания.
Но отложим пока систематическую ошибку и займемся случайной ошибкой. Ее свойство уменьшаться при возрастании объема выборочной совокупности делает ненужным обследования очень больших массивов. Хотя иногда опрашивается очень большое число респондентов, чтобы произвести впечатление на заказчика с целью выбить из него больше денег.
Покажем на примере, как увеличение выборки свыше определенного числа незначительно сказывается на соотношении данных по разным вариантам ответа. Будем использовать материал американских экспериментов.
Выборки |
Одобряют |
Не одобряют |
Не имеют мнения |
Первая выборка, 442 человека |
31 |
62 |
7 |
Первая плюс вторая выборки, 884 человека |
29 |
63 |
8 |
Первая плюс вторая плюс третья выборки, 1 327 человек |
30 |
63 |
7 |
Вывод состоит в следующем. Даже небольшая выборка при условии, что она хорошо распределена в генеральной совокупности, может быть вполне репрезентативной. Больший объем выборки дает возможность в целом более точно предсказывать поведение людей на выборах или при покупках определенных товаров. Но даже огромная выборка не гарантирует стопроцентного совпадения с реальным поведением людей. Однако эта большая точность может не оправдать значительно большие расходы на большую выборку. Но плохо распределенная выборка в десять миллионов человек даст меньшую точность, чем хорошо распределенная выборка в несколько сотен человек.
Что значит хорошо распределенная и плохо распределенная выборка? Пока мы дадим следующий простой пример. Допустим, женщина приготовила винегрет. Так вот, если он очень хорошо перемешан, то достаточно попробовать одну ложку, чтобы точно установить, пересолен он или нет. Если же винегрет плохо перемешан, то и снятие пробы в несколько ложек может не дать правильно представления, насколько хорошо посолен винегрет.
Точнее о том, что значит хорошо распределенная выборка, мы рассмотрим в дальнейших лекциях.
Второй тип ошибок выборки – систематические ошибки. Это неконтролируемые перекосы в распределении выборочных наблюдений, приводящие к потере проектируемого объекта исследования.
Систематические ошибки при возрастании объема выборки не уменьшаются. То есть число опрошенных не имеет значения, и в отличие от случайных систематические ошибки не поддаются предварительному контролю.
Для иллюстрации систематической ошибки в литературе часто приводится один и тот же до боли знакомый пример. Рассмотрим и мы его.
В первые десятилетия XX в. американские газеты и журналы часто проводили опросы перед выборами. В том числе такие опросы проводил журнал “Литерэри Дайджест”. Рассылались миллионы почтовых бюллетеней тем, кто числился в телефонных справочниках и списках автовладельцев. Система работала хорошо до тех пор, пока избиратели со средними и высокими доходами голосовали в равной степени за демократов и за республиканцев. А избиратели с низкими доходами были склонны голосовать за любого кандидата.
С началом новой политики президента Франклина Рузвельта американский избиратель стал расслаиваться: люди с доходами выше среднего, прежде голосовавшие за демократов, переменили свои взгляды на республиканские, а малодоходные слои стали симпатизировать демократической партии.
В 1936 г. на пост президента США претендовали снова Франклин Рузвельт – демократ и его соперник от республиканской партии Альфред Лэндон. Журнал “Литерэри Дайджест” разослал по почте тем, кто числился в телефонных справочниках и списках автовладельцев, десять миллионов бюллетеней, то есть была охвачена примерно треть американских семей. Вернули бюллетени примерно каждая четвертая семьи из получивших бюллетени. Результаты опроса показывали, что Рузвельта должен победить Люэдон с соотношением 57% на 43%.
На деле победил Рузвельт с соотношением 62,5% на 37,5%. Дело в том, что произошел сдвиг в предпочтениях избирателей, который не был учтен журналом “Литерэри Дайджест”: состоятельные избиратели, то есть те, у которых есть телефоны и автомобили, сдвинулись в сторону республиканцев, а бедные – в сторону демократов.
Когда началась предвыборная кампания 1936 года, Гэллап опубликовал статью с предупреждением об ошибке “Литерэри Дайджест”, который должен был предсказать победу республиканца со счетом 56: 44. В ответ “Литерэри Дайджест” поместили сердитую статью со словами: “Никогда и никто еще не предсказывал результаты наших опросов еще до того, как они начались... Нашему другу (имелся в виду Гэллап) можно было бы напомнить, что наши методы обеспечивают “Дайджесту” правильные прогнозы с точностью до одной сотой процента”.
Источник систематической ошибки в опросе “Литерэри Дайджест” состоял в том, что они отождествили электорат США с владельцами телефонов и автомобилей, поэтому предсказали победу республиканцев, но победил демократ Рузвельт..
Усугубил ошибку также метод опроса – через почту. Возвращают заполненные вопросники по почте гораздо чаще люди с высоким образованием и доходами выше среднего, а те, кто не возвращал вопросник, как правило, принадлежали к низшим классам.
Третьим источником систематической ошибки был фактор времени. Состоятельные и более образованные люди обычно определяют “своего” кандидата на президентских выборах заранее, так как уже имеют обоснованную позицию. Простые же люди ничего заранее не умышляют. Журнал “Литерэри Дайджест” опрашивал миллионы преуспевающих американцев за два месяца до выборов, когда богатые уже определились в своем выборе, а бедные еще нет. К выборам те, кто не имели своего мнения начали резко сокращаться и перетекать в пользу Рузвельта. Так выборка в треть семей по всей стране оказалась ошибочной, и выяснилось, что главным для репрезентативности является не объем выборки, а хорошее размещение единиц отбора. А хорошее размещение единиц отбора состоит в правиле: Каждая единица имеет равный шанс попасть в выборку.
3. Виды систематических ошибок
Первая и наиболее часто встречающаяся ошибка называется давление доступных объектов. Здесь происходит необоснованное отождествление реального объекта с проектируемым. В случае опроса “Литерэри Дайджест” использовались прежде всего доступные респонденты, отобранные на основе телефонных справочников и списков автовладельцев. Но очевидно, что такая выборка не является репрезентативной по отношению ко всем избирателям.
Также использовался опрос через прессу. Здесь давление доступных объектов состоит в том, что отвечают лишь те, кто захотел отвечать и послать заполненную анкету обратно.
Если рассматривать уличный опрос, что часто используется при написании дипломных работ, то здесь давление доступности состоит в том, что анкетируются лишь те, кто соглашается отвечать на вопросы.
Другой пример давления доступных данных. В декабре 1993 г. в России проходили выборы в Федеральное собрание. Все социологические службы относительно партии ЛДПР получили предварительные данные не больше, чем 9,9%. А реально за нее проголосовало 23,21% избирателей.
Давление проявилось в том, что демократически настроенные респонденты с самого начала давали определенные ответы по поводу предстоящего голосования, а те, кто были подавлены развитием капитализма в России, долгое время сомневались, это выразилось в том, что предварительные данные по ЛДПР оказались меньше реальных. И вот во время выборов в том числе и сомневающиеся проголосовали за ЛДПР. Но реальный смысл такого голосования заключался в позиции «против всех».
Второй тип систематической ошибки связан с иллюзией постоянства. В предвыборных опросах эта иллюзия состоит в том, что принимается в качестве постоянной группа респондентов, не имеющая определенного мнения. Но именно эта группа в последний момент все же определяется и может ощутимо подправить предвыборные опросы.
Можно различать три группы социологических переменных:
а) переменные, не обнаруживающие изменения во времени;
б) переменные с предсказуемым изменением во времени;
в) переменные с непредсказуемым изменением во времени.
В первом случае временным смещением проектируемого объекта можно пренебречь, во втором случае результаты наблюдений должны экстраполироваться, то есть переноситься, на проектируемый объект с некоторым упреждением, как, например, производится стрельба по движущейся цели. То есть учитывается смещение реального объекта выборки относительно проектируемого объекта.
Задача состоит в том, что надо иметь дело с генеральной совокупностью не вообще, а с той, какой она будет через определенное время. Смещения во времени социологических переменных изучены слабо, поэтому они учитываются больше «на глаз», хотя бы в тенденции роста или понижения.
Но в своих исследованиях американцы Б. Берельсон, П. Лазарсфельд и В. Макфи все же установили циклы электоральных предпочтений американцев в предвыборные месяцы и даже недели. То есть установили, какие группы в какие месяцы и недели за кого скорее всего проголосует.
Однако изменение многих социологических переменных является слабо предсказуемой. Это рейтинги политических деятелей. Чтобы как эти рейтинги сохранять прежними, нужно самим деятелям часто мелькать в СМИ, так сказать, отмечаться. Вот он на дне моря, а вот он гладит амурского тигра.
В маркетинге проводят одномоментные опросы, чтобы ухватить особенности спроса «на сегодня».
Третий тип систематических ошибок – недостаточный учет аномальных и труднодоступных единиц исследования. Речь идет о тех, кто в силу разных причин имеет меньшую вероятность попасть в выборку. Такие группы малочисленны, но самих групп может быть много.
И социолог должен решать, стоит ли пренебрегать группами лиц, лишенных свободы, не имеющих определенного места жительства, работающих в отрыве от дома и т. п. Очень нелегко получить возможность обследовать личный состав Вооруженных Сил, а счет идет на сотни тысяч респондентов, и здесь тоже может заключаться источник серьезных систематических ошибок.
Четвертый тип систематических ошибок – это недостаточный учет отсутствующих по месту проживания. Казалось бы, любой человек может не оказаться дома в момент посещения анкетера, а правила полевого исследования требует, как минимум, троекратного посещения. На самом деле, отсутствуют дома вполне определенные группы населения. При первом посещении обычно удается опросить большую часть женщин и меньше половины мужчин; при трехкратных посещениях обнаруживается, что в числе 4 - 7% труднодоступных респондентов преобладают женщины. Среди рабочих труднодоступных респондентов 5%, среди служащих – 8%. Чем моложе респонденты, тем больше вероятность опросить их при первом визите интервьюера. С увеличением возраста респондентов увеличивается доля труднодоступных – это вроде бы противоречит мнению, будто люди старшего возраста менее мобильны, чем остальные группы населения. Наиболее доступны респонденты, никогда не состоявшие в браке, - после трехкратных визитов интервьюеров доля опрошенных составляет 99-100% .