Автор работы: Пользователь скрыл имя, 18 Декабря 2013 в 22:42, реферат
Цель работы – сравнительный анализ отечественных систем DM.
Для достижения поставленной цели были выполнены следующие задачи:
Рассмотрены теоретические аспекты технологий интеллектуального анализа данных;
Подробно рассмотрены семь самых известных российских программ data mining
Сравнительная оценка рассмотренных систем.
Введение 3
Глава 1. Общие сведения о системах Data Mining 4
1.1. Что такое Data Mining 4
1.2. Классы систем Data Mining 6
Глава 2. Российские пакеты интеллектуального анализа данных 11
2.1. Система PolyAnalyst 11
2.2. Аналитическая платформа Deductor 13
2.3. Excel Neural Package 16
2.4. Модульный анализ и конструирование социума (МАКС) 17
2.5. Контент - Анализ Про 18
2.6. STADIA 19
2.7. NeuroShell 21
Заключение 23
Список литературы 24
Недостатки STADIA:
Рисунок 12 – Диалоговое окно STADIA
NeuroShell - это универсальный пакет,
предназначенный для
Однако нейронные сети, как и мозг, не могут гарантировать всегда абсолютно правильный ответ, особенно если примеры являются в каком-либо смысле неполными или противоречивыми. Результаты следует оценивать в терминах процента совпадения ответов с ответами, которые дал бы эксперт.
NeuroShell - программная среда с
NeuroShell Easy Predictor - дает возможность с легкостью создавать системы для решения задач прогнозирования и предсказания на основе имеющейся базы данных. Это могут быть предсказания следующих значений параметров временного ряда, например, предсказание курса акций, или оценка какой-либо величины, определяемой набором независимых факторов, например, оценка стоимости квартир или подержанных автомобилей.
Neuro Shell Trader - нейросетевая системотехника прогноза особенно для маклеров, инвесторов, и других желающих предсказывать финансовые рынки. Легка в использовании, начинающие могут быстро освоить, профессионалы могут оперировать большим количеством сложных задач. Используется для следующих задач:
Был создан для прогнозирования финансовых рынков. Это - не нейросетевой пакет, приспособленный для финансов, ни финансовый или инвестиционный пакет, приспособленный для нейросетей. Нейросети, планирование, индикаторы, и торговые сигналы совмещаются.
GeneHunter использует генетические
алгоритмы для решения сложных,
NeuroShell Easy Classifier - предназначен для
решения задач распознавания
образов, связанных с
На сегодняшний день российский рынок программного обеспечения для анализа и интеллектуального поиска данных хорошо развит. Конечно, не столь хорошо как зарубежный, но и здесь можно обнаружить множество программ разного уровня проработки, качества, разной направленности, с разными требованиям к аппаратному обеспечению и, несомненно, разными ценами. Спрос на подобные программы в нашей стране продолжает возрастать из-за постоянного увеличения объема обрабатываемых данных.
В работе были рассмотрены теоретические аспекты интеллектуального анализа данных в целом, а так же, более детально, - семь программных пакетов, реализующих алгоритмы DM (PolyAnalyst, Deductor, Excel Neural Pacage, МАКС, Контент – Анализ Про, STADIA, NeuroShell): их создатели, их характеристики и их возможности.
Среди рассмотренных программ наибольшим набором функций обладает пакет Deductor. Он включает в себя как возможность работы с полиномиальной нейронной сетью, так и корреляционно-регрессионный анализ. Кроме того в программе предусмотрено использование и других алгоритмов, таких как деревья решений, прогнозирование, самоорганизующиеся карты, ассоциативные правила. Целью данного программного пакета является поддержка принятия решений. Для создания законченных прикладных решений Deductor позволяет пройти все этапы построения аналитической системы, начиная с создания хранилища данных и заканчивая автоматическим подбором моделей и визуализацией полученных результатов.
Не смотря на обширный список возможностей программы Deductor непосредственно в области статистического анализа первым можно считать пакет, разрабатываемый Магапьютер, PolyAnalyst. Назначение этого программного пакета заключается в автоматическом и полуавтоматическом анализе числовых баз данных, а так же нахождение многофакторных зависимостей между переменными, извлечение из сырых данных практически полезных знаний, построение многомерных не линейных моделей и алгоритмов решений. Стоит отметить, что рассматриваемый пакет поддерживает работы с булевыми и категориальными переменными. И так же как и Deductor статистический пакет PolyAnalyst поддерживает нахождение ключевых слов и поиск смысла, выявление закономерностей и нахождение аномалий. Ограничением является возможность распознавания и анализа только свободного английского текста. Программный пакет PolyAnalyst в разы дороже пакета Deductor.
Более узкоспециализированной программой статистического анализа, поддерживающей алгоритмы DM, является STADIA. Узкоспециализированное применение программы в сфере анализа выборочных распределений и корреляционно-регрессионного анализа обусловлено не богатым инструментарием, который включает в себя дисперсионный, корреляционный и спектральный анализы. Она так же подходит для прогнозирования, построения простой и не линейной регрессионных моделей, проведения кластерного анализа. Данный пакет не проводит автоматического контроля статистической значимости результатов, что усложняет процесс интерпретации данных из-за необходимости ручной перепроверки.
В ходе написания работы так же
были рассмотрены некоторые
Интересным моментом с точки зрения исторического развития отечественных систем DM являются такие программы как Контент-Aнализ Про и МАКС. Контент-Aнализ Про наиболее старая разработка российских социологов в сфере интеллектуального анализа данных. Программа написана для проведения контент-анализа текстов различной сложности, таких как рекламные листовки, материалы групповой дискуссии, интервью, текстов периодической прессы. Программный пакет МАКС предназначался для анализа, диагностики, моделирования и прогнозирования различных социальных систем и нашел свое применение в криминологии. Не смотря на это данный пакет так же подходит для анализа экономической и политической обстановки в России.
Результатом работы является сравнительная таблица данных программных продуктов, с которой можно ознакомиться в приложении 1 данной работы.
Приложение 1. Сравнение рассмотренных систем Data Mining
Название программы |
Разработчик |
Назначение программы |
Используемый инструментарий |
Контроль статистической значимости результатов |
Типы данных, с которыми работает программа |
Пакетный режим анализа данных |
Платформа |
Консультация по программам |
Цена |
PolyAnalyst |
Мегапьютер (Megaputer Intelligence) |
Автоматический и |
Категоризация, кластеризация, прогнозирование, анализ связей, нахождение ключевых слов и поиск смысла, выявление закономерностей, нахождение аномалий |
+ |
числа, булевы переменные, категориальные переменные, даты, свободный английский текст |
+ |
Windows NT/2000/XP |
+ |
От $2300 до $14 900 (в зависимости от выбранного алгоритма); инструментарий разработчика $16 000 |
Deductor |
Neuroprogect (AI & Data Analysys) |
Создание законченных |
Полиномиальная нейронная сеть, линейная регрессия, автокорреляция; деревья решений; прогнозирование; самоорганизующиеся карты; ассоциативные правила |
+ |
Числовые и текстовые данные |
+ |
Windows XP/ Vista/7 для Deductor Studio и Viewer; Windows 2003, 2008, 2008 R2, Unix/Linux для Warehouse |
+ |
Warehouse бесплатна Studio $936; Viewer $280 |
Excel Neural Package |
НейрОК |
Расширяет функциональные возможности Microsoft Excel. Поиск и моделирование скрытых зависимостей в больших массивах численной информации, для которых в явном виде аналитические зависимости не известны |
Полиномиальная нейронная сеть |
- |
Таблицы Excel |
- |
Windows 97 и выше |
- |
Бесплатно |
МАКС |
А.А. Давыдов и А.Н. Чураков |
Анализ, диагностика, моделирование и прогнозирование социальных систем |
Модульный анализ |
- |
Статистические данные (числовые, текстовые) |
Нет данных |
Windows XP/Visa/7. |
- |
Персональная версия– $995;сетевая–$2 985 |
Контент-Aнализ Про |
А.Н. Чураков |
Анализ различных текстов: рекламы, прессы, листовок, речей, интервью, материалов групповой дискуссии |
Контент-анализ |
- |
Текстовые данные |
Нет данных |
Windows XP/Visa/7. |
- |
Нет данных |
STADIA |
НПО “Информатика и компьютеры” |
Анализ выборочных распределений, временных рядов, парной корреляции и регрессии |
Дисперсионный, корреляционный, спектральный анализ; сглаживание; прогнозирование; простая, нелинейная регрессия; кластерный и факторный анализ |
- |
Числовые и текстовые данные |
Нет данных |
от 3.11 и выше, для Windows NT и Windows 2000 существует специальная модификация |
+ |
Базовая версия $200, профессиональная версия $300 |
NeuroShell |
Neuroprogect (AI & Data Analysys) |
Нейросетевой анализ данных, моделирование большого набора нейронных сетей, решение задач управления динамическими процессами, прогнозирование |
Нейронные сети, планирование, сеть Кохонена, метод К-средних, метод ближайших соседей |
+ |
Электронные таблицы (текстовый и двоичный формат) |
+ |
Windows 97 и выше |
+ |
$870 (cо всеми дополнениями) |