Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:15, реферат
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение; если же есть основания считать, что признак имеет, например, распределение П
т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.
Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.
Выборочным средним
Формула для вычисления дисперсии.
Вычисление дисперсии, безразлично—выборочной или генеральной, можно упростить, используя следующую теорему.
Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:
Выборка. Вариационный ряд. Эмпирические законы распределения.
Пусть проводятся n независимых испытаний над случайной величиной X при неизменном комплексе условий, от которых зависят конкретные реализации этой величины. В результате испытаний получены n измерений величины X: Xn = {x1, х2, ..., хn}. Совокупность Xn таких измерений называют выборкой случайной величины X, сами измерения называют элементами выборки, а число измерений n - объёмом выборки. Элементы выборки можно считать независимыми одинаково распределёнными случайными величинами, поскольку они являются результатом проведения последовательности независимых испытаний с одной и той же случайной величиной X.
Предположим, что в выборке Xn представлены все возможные значения случайной величины X с частотами, пропорциональными истинным (неизвестным) вероятностям этих значений. Тогда выборку называют генеральной совокупностью. Генеральная совокупность полностью представляет закон распределения вероятностей случайной величины. Если X - дискретная случайная величина с конечным числом возможных значений, то, в принципе, можно получить генеральную совокупность при неограниченном увеличении числа измерений. По теореме Бернулли относительные частоты появления тех или иных возможных значений будут стремиться по вероятности к истинным вероятностям этих значений. Если X - непрерывная случайная величина, то ситуация усложняется, поскольку возможные значения случайной величины в совокупности представляют непрерывное множество. Из сказанного следует, что, во-первых, для любого конечного n нельзя утверждать, что Xn является генеральной совокупностью, во-вторых, чем больше n, тем ближе, в определённом смысле, Xn к генеральной совокупности.
Та выборка Xn, которая достаточно хорошо сохраняет пропорции генеральной совокупности, называется представительной (или репрезентативной). Это определение представительности выборки не позволяет делать конкретные выводы, так как не указана общая мера соответствия между представительной выборкой и генеральной совокупностью. Вопрос о представительности выборки нужно решать в конкретных частных задачах, опираясь на конкретные критерии соответствия.
Выборка Xn, элементы которой расположены в порядке возрастания, называется простым вариационным рядом. Разность R между наибольшим и наименьшим значениями измерений называют широтой распределения или размахом варьирования. Если одинаковые по значению элементы объединить в группы, то получается сгруппированный вариационный ряд, который представляется в виде таблицы:
Та выборка Xn, которая достаточно хорошо сохраняет пропорции генеральной совокупности, называется представительной (или репрезентативной). Это определение представительности выборки не позволяет делать конкретные выводы, так как не указана общая мера соответствия между представительной выборкой и генеральной совокупностью. Вопрос о представительности выборки нужно решать в конкретных частных задачах, опираясь на конкретные критерии соответствия.
Выборка Xn, элементы которой расположены в порядке возрастания, называется простым вариационным рядом. Разность R между наибольшим и наименьшим значениями измерений называют широтой распределения или размахом варьирования. Если одинаковые по значению элементы объединить в группы, то получается сгруппированный вариационный ряд, который представляется в виде таблицы:
В таблице хi (i = 1, 2, ..., r) - различающиеся значения элементов; ni - число элементов, имеющих значение хi; r - число различных значений в выборке, причём n1 + n2 + ... + +nr = n.
По вариационному ряду строится эмпирическая функция распределения вероятностей исследуемой случайной величины. Эмпирическая функция распределения вероятностей F*(x) определяется как отношение числа a(х) элементов выборки, меньших, чем x, к общему числу элементов n: F*(x) = a(х)/ n. Эта функция будет иметь ступенчатый график. Если все элементы выборки различны, то величина ступенек будет равна 1/ n. С ростом объёма выборки n величина ступенек уменьшается и стремится к нулю при n Для непрерывной величины при эмпирическая функция F*(x) будет неограниченно приближаться к некоторой непрерывной функции F(x). Эту сходимость следует понимать как сходимость по вероятности. Если выборка имеет повторяющиеся по величине элементы, что характерно для дискретных величин, то удобнее пользоваться сгруппированным вариационным рядом. В случае дискретной величины ступенчатый характер функции F*(x) с возрастанием n сохраняется. С ростом n могут появляться дополнительные ступеньки до тех пор, пока не будут зарегистрированы все возможные значения дискретной случайной величины (если число их конечно).
При большом объёме выборки и большом числе различных по величине элементов выборки пользоваться простым и сгруппированным вариационными рядами неудобно. В таком случае пользуются интервальным вариационным рядом, который строится следующим образом. Вся широта распределения разбивается на r частичных интервалов и подсчитывается число элементов ni, попавших в i-й интервал (i = 1, 2, ..., r). Для каждого интервала указываются его правая ai-1 и левая ai границы и его середина xi. Вся эта информация представляется в виде таблицы произвольной формы. Приведём один из вариантов такой таблицы:
Для наглядного представления о форме плотности распределения случайной величины X используются понятия полигона и гистограммы распределения, которые строятся по интервальному вариационному ряду. Для построения полигона нужно из середины каждого частичного интервала восстановить перпендикуляр длиной рi* = ni/n и соединить отрезками прямых вершины этих перпендикуляров. Вершины крайних перпендикуляров соединяются с концами крайних частичных интервалов. Относительные частоты рi* представлены в таблице последней строкой. Чтобы построить гистограмму, нужно на каждом частичном интервале построить прямоугольник высотой pi* (рис. 1).
Рис. 1. Полигон и гистограмма эмпирического распределения
Относительные частоты pi* есть не что иное, как эмпирические вероятности попадания случайной величины в соответствующие интервалы (здесь и далее символ * означает, что величина определена по экспериментальным данным). Если по оси OY откладывать не pi, а отношения pi*/Di, где Di - длины частичных интервалов, то полигон и гистограмма будут различными формами представления эмпирической плотности распределения вероятностей.
Любая группировка исходных данных, подобная той, которая применяется при построении интервального вариационного ряда, приводит к частичной потере информации. Интервальный вариационный ряд не содержит точных значений элементов выборки, так как все элементы, попавшие в i-й интервал (i = 1, 2, ..., r), фактически приравниваются к значению , находящемуся в середине интервала. Современная вычислительная техника позволяет проводить обработку данных, исходя непосредственно из простого вариационного ряда при любом объёме выборки. Использовать интервальный вариационный ряд рационально тогда, когда этого требует сам метод обработки экспериментальных данных.
Эмпирические числовые характеристики. Числовые характеристики случайных величин, найденные на основе экспериментальных данных, называются точечными оценками этих характеристик или эмпирическими характеристиками. Чтобы понять структуру формул, определяющих эмпирические моменты случайной величины, рассмотрим простой вариационный ряд Xn = {x1x2, ..., xn}. Можно формально считать, что рассматривается дискретная случайная величина, имеющая n возможных значений с вероятностями 1/n. Математическое ожидание этой случайной величины и дисперсия определяются по общему правилу:
Данные формулы соответствуют простому вариационному ряду. Для сгруппированного вариационного ряда число слагаемых в уменьшится до r, где r - число различных по величине элементов выборки, за счёт группирования одинаковых слагаемых. Для интервального вариационного ряда формулы будут иметь такую же структуру, однако вместо непосредственных измерений, в ней фигурируют середины частичных интервалов xi. Учитывая эти особенности, можно записать общие формулы для вычисления начальных n *k и центральных m*k эмпирических моментов случайной величины:
В этих формулах первая строка соответствует простому вариационному ряду, вторая - сгруппированному, третья - интервальному вариационному ряду. Формулы связи между центральными и начальными моментами не изменяется, т.е.
Эмпирическое математическое ожидание случайной величины совпадает с первым начальным моментом n1*, а её эмпирическая дисперсия совпадает со вторым центральным моментом m2*. Формулы, определяющие основные характеристики случайной величины, также сохраняют свою структуру. В них достаточно заменить теоретические моменты nk и mk на эмпирические nk* и mk*. Таким образом, эмпирические характеристики асимметрия (скошенность) и эксцесс определяются по обычным формулам:
Где - эмпирическое среднее квадратическое отклонение величины Х.
При вычислении эмпирических характеристик можно делать некоторые предварительные преобразования выборки, которые приводят к упрощению вычислений. При этом опираются на соответствующие свойства математического ожидания, дисперсии и т.п. Например, математическое ожидание можно вычислять по формуле:
Постоянная величина C выбирается так, чтобы суммирование оказалось наиболее простым. Преобразование типа X - C означает сдвиг всей выборки по числовой оси на величину C. Дисперсия не изменяется, т.е. D*{X} = D*{X - C}. Можно вводить масштабный коэффициент, т.е. рассматривать величину aX вместо величины X, где a - масштабирующий множитель. При вычислениях следует учитывать, что M{aX} = aM{X}, а D{aX} = a2 D{X}. Такие преобразования часто приводят к упрощению вычислений. Если вычисления проводятся на ЭВМ, то эти преобразования не целесообразны.
Точечные оценки параметров. Свойства эмпирических характеристик.
Требуется оценить некоторый параметр Q, связанный со случайной величиной X, используя выборку Xn = {x1,х2, ..., хn}. Пусть в качестве такой оценки выбрана однозначная функция от элементов выборки Q* = Q*(x1, х2, ..., хn). Для конкретных значений элементов выборки эта оценка представляет собой одно число. Такие оценки называются точечными оценками параметров, так как на числовой оси они изображаются одной точкой. Задача состоит в том, чтобы найти такую оценку Q*, которая была бы в определённом смысле наиболее близкой к оцениваемому параметру Q.
Как функция элементов выборки, оценка Q* является случайной величиной. Определим её математическое ожидание. Оно, очевидно, будет зависеть от истинных числовых характеристик изучаемой величины X и от объёма выборки n. Пусть получено равенство:
М{Q*} = Q + j(Q, n),
где j(Q, n) - некоторая функция истинного значения параметра Q. Желательно, чтобы функция j(Q, n) равнялась нулю. Это бы означало, что математическое ожидание оценки параметра равно истинному значению этого параметра. Оценка Q*, обладающая таким свойством, называется несмещённой оценкой параметра Q. Если j(Q, n) ¹ 0, то Q* называется смещённой оценкой параметра Q, а сама функция j(Q, n) называется смещением.
Если при n®¥ оценка параметра сходится по вероятности к истинному значению параметра, то оценка Q* называется состоятельной оценкой параметра Q. Для дальнейшего изучения свойств оценки Q* можно определить её дисперсию, которая также окажется функцией от истинных числовых характеристик изучаемой случайной величины X и от объёма выборки n, т.е. D{Q*} = D(Q, n). Если оценка состоятельная, то D(Q, n) стремится к нулю при n®¥ Различные оценки одного и того же параметра будут иметь разные дисперсии. Та из них, которая имеет наименьшую дисперсию, называется эффективной оценкой данного параметра.
Приведем краткий анализ эмпирических числовых характеристик. Найдем математическое ожидание и дисперсию оценки mx случайной величины Х:
Здесь учтено, что элементы выборки xi, являясь независимыми реализациями случайной величины X, имеют те же самые характеристики, что и сама величина X. Таким образом,
Из этого следует, что mX* является несмещённой и состоятельной оценкой истинного математического ожидания mx случайной величины X (D{mX*}®0 при n®¥.
Аналогичный анализ для эмпирической дисперсии DX* показывает, что
Таким образом, эмпирическая дисперсия является смещённой оценкой дисперсии. Смещение равно (-Dx/ n) и стремится к нулю при n®¥. Однако при малом объёме выборки это смещение оказывается существенным. Для его устранения вводится поправочный коэффициент, при умножении которого на DX* получается другая оценка дисперсии, не имеющая смещения. Эта оценка обозначается обычно через S2 (читается: «S - квадрат»):
Очевидно, что M{S2} = Dx.
Вычисление дисперсии величины S2 не представляет принципиальных трудностей, но оказывается достаточно громоздким. Вычисления показывают, что эта дисперсия пропорциональна величине 1/n и, следовательно, стремится к нулю при n®¥. Таким образом, величина S2 является несмещённой и состоятельной оценкой истинной дисперсии Dx. Её рекомендуется использовать вместо оценки Dx*, особенно при малых значениях n.
Свойством несмещённости обладают
только первые два эмпирических момента.
Моменты более высоких порядков
ни при каких весовых коэффициента
Рассмотрим кратко методы нахождения оценок. Один из методов предполагает задание структуры оценки с точностью до неизвестных параметров, которые определяются из условия минимума дисперсии оценки. Примером применения этого метода является определение оценки математического ожидания случайной величины в случае неравноточных измерений. Пусть по выборке Xn = {x1, x2, ..., xn} требуется оценить параметры mx и Dx, причём измерения xi были произведены с разной точностью, т.е.
Информация о работе Статистические оценки параметров распределения