Разработка электронного пособия по спецкурсу «Классификация экспериментальных данных»

Автор работы: Пользователь скрыл имя, 26 Октября 2012 в 22:41, курсовая работа

Описание работы

Объект исследования (разработки): электронное пособие по спецкурсу «Классификация экспериментальных данных».
Цель курсовой работы: разработка электронного пособия по спецкурсу «Классификация экспериментальных данных».
Задачи курсовой работы: изучение основ теории классификации, освоение основных приемов работы в среде системы Statistica, изучение принципов работы языка HTML, организация и реализация web-пособия.

Содержание работы

ВВЕДЕНИЕ
1 ПРИКЛАДНАЯ СТАТИСТИКА
1.1 Прикладная статистика
1.2 Пакет Statistica
2 ИНСТРУМЕНТ HTML
2.1 Общие сведения о HTML
2.2 Создание web–приложения поддержки процесса изучения спецкурса
3 АПРОБАЦИЯ
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ А

Скачать архив (633.84 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

курсовая работа(2003).doc

— 995.00 Кб (Скачать файл)

Рис. 3.1. Наблюдаемые данные на плоскости

Рис. 3.2. Прямая, подобранная по методу наименьших квадратов

Про такую линию говорят, что она построена методом наименьших квадратов. Уравнение прямой, полученное из условия минимизации суммы квадратов отклонений, измеренных по оси Y, имеет следующий вид: Y = 171.7839 + 174.6231*Х. Данное уравнение называют также уравнением регрессии.

Оценка свободного члена ВО равна 171.7839, оценка коэффициента В1 — угла наклона — равна 174.6231. Эти оценки являются наилучшими оценками неизвестных параметров ВО, В1, так как прямая Y = 171.7839 + 174.6231*Х в определенном выше смысле максимально близко проходит к наблюдаемым точкам.

Кратко опишем основные понятия регрессионного анализа. Эти понятия используются в таблицах вывода в модуле Множественная регрессия (Multiple regression).

<ul> <li>Предсказанные значения (Predictable values): значения Y-ов, вычисленные по уравнению с оцененными параметрами, — в нашем примере по уравнению Y = 171.7839 + 174.6231*Х, — их называют предсказанными значениями. Значения Y-ов, предсказанные в точках X(i), будем обозначать PrY(i), 0 < i <=n.

<li>Остатки (Residuals): разности между наблюдаемыми значениями и предсказанными: Y(i) — PrY(i), 0 < i<=n.

<li>Сумма квадратов Y-ов, скорректированная на среднее, — SS: SS = (Y(l) - Y)**2 + (Y(2) - Y)**2 + ... + (Y(n) - Y)**2, где Y - среднее Y-ов - Y_= (Y(l) + Y(2) + ... + Y(n))/n.

<li>Сумма квадратов PrY(i), скорректированная на среднее SSPr: SSPr = (PrY(l) - Y)**2 + (PrY(2) - Y)**2 + ... + (PrY(n)- Y)**2.

<li>Сумма квадратов остатков SSRes: SSRes = (Y(l) - Pr(Y(l))**2 + (Y(2) - Pr(Y(2)**2 + ... + (Y(n) - Pr(Y(n))**2.

<li>Коэффициент детерминации R**2: R**2 = SSPr/SS. </ul>

Из самого определения следует, что коэффициент детерминации измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Коэффициент детерминации лежит в пределах от 0 до 1. Он измеряет качество построенной регрессии. Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных. Заметим, что коэффициент детерминации может максимально близко приблизиться к 1, если все предикторы различны. В случае, если некоторые значения предикторов совпадают — имеются так называемые повторные опыты, — коэффициент детерминации не достигает 1.

<a name="#3.2"><h3>3.2. Пример: курсы акций ИРКУТСКЭНЕРГО и КРАСНОЯРСКЭНЕРГО</h3></a>

Этот пример взят нами из финансовой сферы. В таблице на рис. 3.3 даны курсы покупки и продажи акций ИРКУТСКЭНЕРГО и КРАСНОЯРСКЭНЕРГО:

Рис. 3.3. Акции энергокомпаний

Создайте файл с этими данными, как показано в первой главе, и назовите его, например, raoesl.sta. Проведем анализ в модуле Множественная регрессия. Рассмотрим акции ИРКУТСКЭНЕРГО. Установим, как цена покупок связана с ценой продаж.

Шаг 1. Из Переключателя модулей STATISTICA откройте модуль Множественная регрессия — Multiple regression. Высветите название модуля и далее нажмите кнопку Switch to (Переключиться в).

Шаг 2. На экране появится стартовая панель модуля (рис. 3.4):

Рис. 3.4. Стартовая панель модуля Множественная регрессия

Рис. 3.5. Окно выбора переменных для анализа

Высветив имя переменной в левой части окна, выберите зависимую переменную. Высветив имя переменной в правой части окна, выберите независимую переменную. То же можно сделать, просто набрав номера переменных в строках: Список зависимых переменных — Dependent variable list и Список независимых переменных — Independent variable list. В данном примере независимой переменной является ИРКУТ1, зависимой — ИРКУТ2. Высветив имена этих переменных, как показано на рисунке, нажмите кнопку ОК в правом верхнем углу окна Select dependent and independent variable list. Вы вновь окажетесь в стартовой панели модуля. Переменные для анализа выбраны.

Шаг 3. На экране перед вами появится диалоговое окно Построение модели — Model Definition (рис. 3.6).

Рис. 3.6. Окно построения модели в модуле Множественная регрессия

В данном окне выберите стандартный метод оценивания, в опции Method (Метод): Стандартный (Standard). Далее нажмите кнопку ОК. Программа произведет оценивание параметров модели стандартным методом.

Шаг 4. В диалоговом окне Результаты Множественной регрессии — Multiple Regression Results просмотрите результаты оценивания. Результаты можно просмотреть в численном и графическом виде.

Рис. 3.7. Окно оценивания параметров в примере с продажей акций

В информационной части посмотрим прежде всего на значения коэффициента детерминации. Значения коэффициента детерминации лежат в пределах от 0 до 1. В нашем примере RI = 0.86... Это очень хорошее значение, показывающее, что построенная регрессия объясняет более 86% разброса значений переменной ИРКУТ2 относительно среднего.

Рассмотрим вторую часть информационного окна. В этой части система сама говорит нам о значимых регрессионных коэффициентах, высвечивая строку: ИРКУТ1 beta = 0.936 и на пояснение значимые beta высвечены — significant beta's are highlighted. Отметим, что в данном случае beta есть стандартизованный коэффициент В1, то есть коэффициент при независимой переменной ИРКУТ1.

Перейдем в функциональную часть окна результатов. Прежде всего нажмите кнопку Итоговый результат регрессии — Regression summary. На экране появится электронная таблица вывода — spredsheet, в которой представлены итоговые результаты оценивания регрессионной модели.

Рис. 3.8. Итоговая таблица регрессии

Рис. 3.9. Линейная регрессия для данных: ИРКУТ1 и ИРКУТ2

Шаг 5. Оценка адекватности модели. Важным элементом анализа является оценка адекватности модели. После того как доказана адекватность модели, полученные результаты можно уверенно использовать для дальнейших действий. Анализ адекватности основывается на анализе остатков. Остатки представляют собой разности между наблюдаемыми значениями и модельными, то есть значениями, подсчитанными по модели с оцененными параметрами. В STATISTICA в модуле Множественная регрессия имеется специальное диалоговое окно, в котором проводится всесторонний анализ остатков. Нажмите кнопку Анализ остатков — Residual Analysis. Следующее диалоговое окно Анализ остатков — Residual Analysis появится на экране (рис. 3.10).

Рис. 3.10. Диалоговое окно Анализ остатков в модуле Множественная регрессия (Пример: с акциями ИРКУТСКЭНЕРГО)

Нажмите в этом окне, например, кнопку Obs&residuals. На экране появится график (рис. 3. 11), который говорит о достаточной адекватности модели.

Рис. 3.11. График НАБЛЮДАЕМЫЕ ПЕРЕМЕННЫЕ-ОСТАТКИ

Построим зависимость между ценой продаж акций КРАСНОЯРСКЭНЕРГО и ИРКУТСКЭНЕРГО. Основные наши действия те же, что в предыдущем примере. В данном примере независимой переменной является ИРКУТ2 - цена продажи ИРКУТСКЭНЕРГО, зависимой - КРАСНЯР2 - цена продажи КРАСНОЯРСКЭНЕРГО. В результате мы получим следующую таблицу с численными результатами оценивания регрессионной модели:

Рис. 3.15. Результаты оценивания параметров модели в примере с акциями КРАСНОЯРСКЭНЕРГО, ИРКУТСКЭНЕРГО

Нажмите кнопку Анализ остатков — Residual Analysis. В диалоговом окне Анализ остатков — Residual Analysis посмотрите, как связаны остатки с наблюдаемыми значениями.

Рис. 3.16. График НАБЛЮДАЕМЫЕ ПЕРЕМЕННЫЕ-ОСТАТКИ в примере с акциями КРАСНОЯРСКЭНЕРГО, ИРКУТСКЭНЕРГО

В окне Анализ остатков нажмите кнопку Pred&observed(F) и посмотрите, как наблюдаемые значения связаны с предсказанными с помощью построенной модели (рис. 3.17).

Рис. 3.17. График наблюдаемых и предсказанных значений

Из этих графиков видно, что модель достаточно адекватно описывает данные. Следовательно, с ее помощью можно строить достаточно надежные выводы о зависимости стоимости акций КРАСНОЯРСКЭНЕРГО и ИРКУТСКЭНЕРГО за рассматриваемый промежуток времени (рис. 3.18).

Рис. 3.18. Зависимость цены продаж акций КРАСНОЯРСКЭНЕРГО от ИРКУТСКЭНЕРГО за период 22.10.96 - 20.11.96

Lab1.html

<h2>Лабораторная работа № 1. УНИФИКАЦИЯ ПРИЗНАКОВОГО ОПИСАНИЯ</h2>

Цель работы: изучить подходы по унификации признаковых описаний

Постановка задачи: Для предметной области из таблицы 1.1 (в соответствии с вариантом) построить исходное признаковое описание объекта с наличием признаковых значений из разных шкал и преобразовать это описание в унифицированное представление, пригодное для обработки алгоритмами анализа данных, ориентированными на описание в некоторой одной шкале (качественной, порядковой и количественной).

Задание1. Разработать алгоритм унификации к качественным, порядковым и количественным шкалам.

Задание2. Построить унифицированное описание в качественной, порядковой и количественной шкалах.

Задание 3. Оформить отчет.

2 Контрольные вопросы

<ol> <li>Примеры всех шкал

<li>Отличие порядковой и шкалы разностей

<li>Алгоритм унификации</ol>

</body></html>

Lab2.html

<h2>Лабораторная работа № 2. ВВЕДЕНИЕ В СИСТЕМУ STATISTICA</h2>

Цель работы: освоить простейшие приемы работы в системе STATISTICA

Постановка задачи:Для предметной области (из лабораторной работы 1) построить признаковое описание объекта.

Задание 1. Создать файл. (см. п. 1.1).

Задание 2. Построить описательные статистики (см. п. 1.2).

Задание 3. Вычислить корреляции (см. п. 1.3).

Задание 4. Построить простейшие статистические графики. (см. п. 1.4).

Задание 5. Оформить отчет.

1 Пояснительная записка

2.1 Создание файла

Создаем таблицу «Цена рекламы», которая имеет 4 столбца: Длина, Ширина, Площадь, Цена; и 8 строк. Заполняем таблицу числовыми данными.

2.2 Описательные статистики

По столбцу «Площадь» рассчитываем основные описательные статистики.

2.3 Вычисление корреляций

2.4 Построение простейших статистических графиков

</body></html>

Lab3.html

<h2>Лабораторная работа № 3. ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ В СИСТЕМЕ STATISTICA</h2>

Информация о работе Разработка электронного пособия по спецкурсу «Классификация экспериментальных данных»