Автор работы: Пользователь скрыл имя, 01 Декабря 2015 в 00:47, лекция
Оптимизируются те или иные объекты. Для оптимизации объекта следует иметь об этом объекте достаточное количество априорной информации.
Априорная информация – уровень достоверной информации об объекте исследования, позволяющей построить модель того или иного уровня детализации и достоверности.
Сущность математического описания объекта (системы) или процесса заключается в получении математической модели или соотношения, связывающего характеристики входящего в объект материала и выходящего продукта:
Y = F{X},
где Y – сов-ть выходных параметров процесса, которые определяют свойства выходящего продукта.
Х – совокупность выходных параметров (факторов), определяющих характеристики процесса (объекта) и свойства входящего материала (продукта).
F{X} – символ, называемый оператором, который характеризует математическую модель объекта или системы.
«Ширина» распределения = Разброс*
Размах
(range)
Стандартное отклонение (standard deviation)
Дисперсия (variance)
* Это лишь основные параметры разброса
Размах (range) – разность между максимальным и минимальным значениями = Xn – X1
Хорош тем, что легко считается и имеет «биологический смысл».
Плох тем, что зависит лишь от 2-х точек из распределения. Недооценивает истинный размах в популяции.
Стандартное отклонение (standard deviation)
Частотное распределение переменной
Разброс распределения
Для выборки:
Для популяции:
Поправка на то, что
в выборке разброс всегда
Стандартное отклонение зависит ото всех значений переменной.
Измеряется в тех же единицах, что и переменная!
Сумма квадратов
(sum of squares = SS)
Частотное распределение переменной
Разброс распределения
Дисперсия (variance)
Для выборки:
Для популяции:
Равна стандартному
отклонению в квадрате и
Дисперсия используется
скорее в различных
Коэффициент вариации
(Coefficient of variation)
Частотное распределение переменной
Разброс распределения
Даёт понять, насколько на самом деле велик разброс в данных, независимо от масштаба измерений. (маленький разброс – меньше 5%)
Не годится для данных, измеренных по интервальной шкале (температура, время и пр.)
Параметры разброса для качественных данных:
Индексы разнообразия (indices of diversity)
Показывают, насколько
равномерно данные
Индекс Шеннона-Винера
p = доля объектов в той или иной категории;
k – число категорий.
Нормированный индекс Шеннона ( )
Этих индексов много для разных целей; это показатели ОПИСАТЕЛЬНОЙ статистики!
Для публикаций
Для публикаций
Для публикаций
Частотное распределение переменной
По ФОРМЕ распределения различаются:
унимодальное
бимодальное
мультимодальное
обычно возникают, если популяция имеет естественные обособленные подгруппы
Частотное распределение переменной
Симметричное
Скошенное (skewed)
вправо (positively)
влево negatively
По ФОРМЕ распределения различаются:
Частотное распределение переменной
3. распределение
асимптотическое
не асимптотическое
По ФОРМЕ распределения различаются:
Частотное распределение переменной
Нормальное распределение (
первое знакомство
Высота деревьев, масса тела новорожденных, IQ, скорость прохождения лабиринта крысами и многие, многие другие переменные
Это непрерывное распределение
Название в честь Гаусса не совсем справедливо – первым его описал вовсе не он.
Симметрия и эксцесс.
Стандартное отклонение (standard deviation):
для нормального распределения = дистанции от среднего значения до каждой из точек перегиба
Частотное распределение переменной
s
s
Частотное распределение переменной
«Площадь распределения»
Площадь, которую занимает график распределения, соответствует количеству измерений в выборке.
Отрезая часть распределения на графике, мы отделяем эквивалентную часть от выборки
частота
масса, кг
16% площади распределения ~ 16% объёма выборки
Частотное распределение переменной
Процентили и z-оценка (standard score)
95% процентиль – значение переменной, левее которого находится 95% значений переменной
95%
Частотное распределение переменной
Процентили и z-оценка (standard score)
Z-оценка (z-scores) – переменная, соответствующая количеству стандартных отклонений от измерения до среднего значения
точка перегиба
Z-оценка
выборка
популяция
Частотное распределение переменной
Площадь нормального распределения
Нормальное распределение определяется лишь 2-мя параметрами – μ и σ .
Необыкновенное свойство:
Относительные площади нормального распределения над одинаковым количеством стандартных отклонений всегда одинаковы!
Частотное распределение переменной
Площадь нормального распределения
Z-оценка
(количество стандартных отклонений)
Откладывая от среднего
значения стандартное
Пример с IQ (μ=100, σ=15)
Частотное распределение переменной
Площадь нормального распределения
Площадь нормального распределения
Распределение выборочных средних (sampling distribution of the means)
Три основные концепции в анализе данных:
выборка
популяция
Распределение выборочных средних
Что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё?
На 1-м курсе института 25 групп по 22 студента.
Предположим, средняя масса студента – μ=50 кг, σ = 4 кг, а группы – случайные выборки студентов.
Трудно ожидать, что и в каждой группе средняя масса будет 50 кг!
Выборки не обязательно
должны удовлетворять
…..
Распределение выборочных средних
Мы посчитали средние
массы студентов в КАЖДОЙ
50
5
55
60
45
40
50
1.2
Его среднее будет
близко популяционному
Это и будет распределение выборочных средних (sampling distribution of the means)
Пример про бутылки с кока-колой
Распределение выборочных средних
Распределение выборочных средних
Выборка
(группа)
Популяция (все студенты)
Чтобы уменьшить ошибку среднего, можно либо уменьшить дисперсию, либо увеличить размер выборки!
s
среднее
стандартное отклонение
>>
Стандартная ошибка среднего
(Standard error = SE)
Распределение выборочных средних
ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА
Определяет форму, среднее и разброс в распределении выборочных средних
Пример с монеткой
Распределение выборочных средних
Следствие:
если некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе!
Распределение выборочных средних
Масса кролика определяет многими факторами:
Генотип – 7 кг
Питание – 20 кг
Уход и любовь хозяина – 25 кг
Внутриутробные условия – 5 кг
Качество вскармливания мамой – 8 кг
Т.е., масса кролика – среднее по выборке многих гипотетических масс. А массы нескольких кроликов – выборочные средние
Распределение выборочных средних
У нас есть одна выборка. Из неё мы получили среднее значение
Насколько оно близко среднему значению в популяции (μ)?
Мы знаем, что для
нормального распределения
Но мы также знаем, что выборочные средние образуют нормальное распределение!!
Это значит, что, зная среднее в популяции, мы можем рассчитать интервал, в который попадёт выборочное среднее с вероятностью, скажем, в 95% (или 99%).
Решим обратную задачу. Пусть нам известно μ, найдём
Как оценить
популяционное среднее имея
Распределение выборочных средних
0
5
1
2
-1
-2
Z - оценка
0
1.2
Z - оценка
Вопрос: какая часть ОСОБЕЙ имеет массу больше 55 кг?
Другой вопрос: какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг?
Оценка параметров популяции на основе свойств выборки
Пусть мы изначально знаем среднюю массу студентов 1-го курса и стандартное отклонение в популяции. Как оценить среднюю массу в какой-нибудь группе, не взвешивая студентов?
Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции.
0
1
2
-1
-2
1.2
μ
Зная стандартное отклонение в нем (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в группах:
Оценка параметров популяции на основе свойств выборки
95% доверительный интервал (95% confidence interval): интервал значений переменной, который с вероятностью 95% содержит нужный параметр.
Т.е., расстояние от среднего значения в популяции до выборочного среднего для 95% выборок не больше 1.96 SE
Вернёмся к исходной задаче:
Как оценить среднюю массу в популяции, если нам известно среднее в выборке??
Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE
cv – critical value, критическое значение статистики (в данном случае, Z) – грубо говоря, вероятность ошибки.
Оценка параметров популяции на основе свойств выборки
Вопрос: где расположено μ?
Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего (SE)
Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал
Вопрос: где расположено μ?
Ответ: я совершенно уверен, что оно лежит в пределах... от до
В примере нам было известно σ, но на практике оно обычно неизвестно!
Оценка параметров популяции на основе свойств выборки
Мы не знаем стандартное
отклонение в популяции, и оцениваем
его через стандартное
Информация о работе Методы и средства исследования и оптимизации процессов . Основные понятия