Автор работы: Пользователь скрыл имя, 16 Августа 2014 в 09:14, курс лекций
Курс лекций по дисциплине «Математическое моделирование в экологии» включает в себя следующие разделы:
общие понятия о системном анализе и математических методах в экологии,
экологической системе как объекте математического моделирования;
основные этапы построения моделей; краткая характеристика аналитических, имитационных,
эмпирико-статистических моделей процессов и взаимосвязей, возникающих в экосистемах.
Разработанную в первой трети ХХ в. теорию называют параметрической статистикой, поскольку ее основной объект изучения – это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым конкретное распределение результатов экологических наблюдений должно входить в то или иное параметрическое семейство. В подавляющем большинстве реальных ситуаций таких предположений сделать нельзя, но, тем не менее, приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств часто не является чисто формальной операцией. Закономерности расчета описательных статистик в зависимости от распределения эмпирического ряда хорошо известны: если вероятностная модель основана на нормальном распределении, то расчет математического ожидания предусматривает суммирование независимых случайных величин; если же модель приближается к логарифмически нормальному распределению, то итог естественно описывать как произведение таких величин и т.д.
В первой же трети ХХ в., одновременно с параметрической статистикой, в работах Ч.Спирмена и М. Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ в. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена и основанные на использовании так называемого эмпирического процесса – разности между эмпирической и теоретической функциями распределения.
Во второй половине XX в. развитие непараметрической статистики пошло быстрыми темпами, в чем большую роль сыграли работы Ф. Вилкоксона и его школы. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. Все бóльшую роль играют непараметрические оценки плотности вероятности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа).
Тем не менее, параметрические методы всё еще популярнее непараметрических, так как распределения реально наблюдаемых случайных величин (в частности, биологических данных) в подавляющем большинстве случаев отличны от нормальных (гауссовских). Теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики – применять подобные методы и модели (“ищут под фонарем, а не там, где потеряли”). Однако полностью игнорировать классические методы не менее вредно, чем переоценивать их. Поэтому целесообразно использовать одновременно оба подхода – и параметрические методы, и непараметрическую статистику. Такая рекомендация находится в согласии с концепцией математической устойчивости, рекомендующей использовать различные методы для обработки одних и тех же данных с целью выделить выводы, получаемые одновременно при всех методах.
Любая выборка экологических данных является принципиально неоднородной, поскольку измерения могут осуществляться в различные временные периоды, разных пространственных точках водоема, с использованием различных инструментальных методов и т.д. В связи с этим, важным этапом математической обработки является дисперсионный анализ, с помощью которого оценивается, имеют ли место статистические различия между отдельными подмножествами данных и можно ли считать их принадлежащими одной генеральной совокупности. Если каждому измерению поставлен в соответствие один признак (фактор), определяющий условия его реализации, то говорят об однофакторном дисперсионном анализе. Если таких группообразующих факторов больше одного, то выполняется многофакторный дисперсионный анализ.
Если выборка состоит из двух рядов сопряженных наблюдений, измеренных в идентичных условиях, то решается задача регрессионного анализа, т.е. один эмпирический ряд объявляется результативным показателем или “откликом” Y, а другой – независимой варьируемой переменной X или “фактором”.
Регрессионный анализ
Основной задачей регрессионного анализа является идентификация вида функциональной зависимости Y » f(X), восстанавливаемой по эмпирическим данным. Реальный мир в подавляющем большинстве случаев объективно нелинеен. В ряде случаев вид аппроксимирующего уравнения заранее предполагается из некоторых теоретических соображений. Если этого нет, то, исходя из принципа множественности моделей В.В. Налимова, одному и тому же конечному результату будет соответствовать значительное множество вариантов расчетных формул. Возникает традиционная ситуация пребывания исследователя “между Сциллой усложненности и Харибдой недостоверности”, когда необходим выбор регрессионного уравнения оптимальной сложности.
Нелогично описывать уравнением прямой или другими простыми алгебраическими функциями динамику рядов биологических показателей, характеризующихся "горбами", перегибами и прочими нестационарными атрибутами. В этом случае неоптимальность модели связана с ее недоопределенностью, когда сложность структуры аппроксимирующей функции недостаточна для отображения сложности изучаемого процесса. Вспомним слова А.Г. Ивахненко о том, что сложность модели для сложных объектов принципиально необходима.
Другим возможным источником неоптимальности является переопределенность структуры выбранной модели: через n точек всегда можно провести бесконечное множество кривых с нулевой ошибкой (например, с помощью полиномов степени выше n), но это исключает какую-либо возможность содержательной интерпретации полученной зависимости. До сих пор во многих научных работах авторы постулируют некоторую функцию лишь на том основании, что она весьма близко прошла через их экспериментальные точки. Такие доказательства "правильности" теорий нельзя принимать серьезно, так как за пределами эмпирического материала такая модель может вести себя достаточно "причудливым" образом, что поставит под сомнение возможность получения надежного прогноза и достоверной связи между факторами. “Переусложнение модели так же вредно, как и ее недоусложнение” (Ивахненко).
Сущность нахождения модели оптимальной сложности заключается в ее поэтапной структурной идентификации, т.е. одновременном определении оптимальной структуры и оценки параметров модели. Например, можно предложить следующий порядок подгонки моделей:
Более строгие методы проверки гипотезы о линейности связаны с анализом выборочных корреляционных отношений на основе методов интервальной математики.
Таблицы сопряженности и интервальная математика
Математический аппарат, осуществляющий анализ таблиц сопряженности, используется в тех случаях, когда данные, в которых измерены показатели Y и X, представлены в шкале наименований или порядковой шкале. В этих случаях любые статистические методы, основанные на параметрических распределениях, оказываются неприменимыми и анализ таблиц сопряженности оказывается практически единственным надежным видом обработки (хотя существуют, например, специальные методы регрессии типа логит- и пробит-анализа или нейросетевой анализ).
Среди различных статистических методов изучения биологической вариабельности анализ частот считается наиболее распространенным и адекватным. Достаточно напомнить, что именно анализу частот современная биология обязана открытием гена (Г. Мендель, Т. Морган). Популярность этого подхода оказалась настолько велика, что разработаны методики его адаптации к количественным признакам, которые заключаются в разбиении области существования переменной на интервалы и подсчете вероятностей появления значения признака в каждом из этих интервалов. Таким образом, можно получить надежную и непротиворечивую оценку степени и характера влияния фактора на зависимую переменную, хотя, в отличие от регрессионного анализа, конкретный расчет уравнения связи Y » f (X) здесь не достигается.
Как отмечалось выше, при анализе эмпирического материала часто оказывается, что средняя арифметическая и коэффициент корреляции – плохие количественные характеристики гидробиологических данных, где часто не подтверждается гипотеза о нормальности распределения. Возникают ситуации, когда средние арифметические биологических признаков статистически неразличимы, хотя на самом деле выборки этих значений имеют существенные отличия. Коэффициенты корреляции Пирсона и уравнения регрессии могут свидетельствовать о взаимосвязи, которой на самом деле нет или, наоборот, не в состоянии выявить связь, когда она есть. Одним из альтернативных методов обработки, обеспечивающих более надежные и устойчивые оценки, явились специальные приемы и алгоритмы, также основанные на анализе частот или интервальных средних.
Список использованной литературы