Автор работы: Пользователь скрыл имя, 21 Января 2015 в 00:19, лекция
Управление знаниями (knowledge management) — новая дисциплина, занимающаяся вопросами создания и управления знаниями, представляющими интерес для компаний. Управление знаниями определяют также как совокупность процессов, которые управляют созданием, распространением, обработкой и использованием знаний внутри предприятия. Управление знаниями включает определение ценных для компании знаний, их распространение среди сотрудников компании, использование и генерирование новых знаний.
Среди теоретических предпосылок возникновения knowledge management (КМ) можно выделить следующие.
В
той или иной мере средства для графического
отображения данных поддерживаются всеми
системами Data Mining. Вместе с тем, весьма
внушительную долю рынка занимают системы,
специализирующиеся исключительно на
этой функции. Примером здесь может служить
программа DataMiner 3D словацкой фирмы Dimension5
(5-е измерение).
В
подобных системах основное внимание
сконцентрировано на дружелюбности пользовательского
интерфейса, позволяющего ассоциировать
с анализируемыми показателями различные
параметры диаграммы рассеивания объектов
(записей) базы данных. К таким параметрам
относятся цвет, форма, ориентация относительно
собственной оси, размеры и другие свойства
графических элементов изображения. Кроме
того, системы визуализации данных снабжены
удобными средствами для масштабирования
и вращения изображений. Стоимость систем
визуализации может достигать нескольких
сотен долларов.
^
Назначение
системы. Система PolyAnalyst предназначена
для автоматического и полуавтоматического
анализа числовых баз данных и извлечения
из сырых данных практически полезных
знаний. PolyAnalyst находит многофакторные
зависимости между переменными в базе
данных, автоматически строит и тестирует
многомерные нелинейные модели, выражающие
найденные зависимости, выводит классификационные
правила по обучающим примерам, находит
в данных многомерные кластеры, строит
алгоритмы решений. Разработчик системы
PolyAnalyst - российская компания Megaputer Intelligence
или "Мегапьютер" [8].
^ Архитектура системы
По
своей природе PolyAnalyst является клиент-серверным
приложением. Пользователь работает с
клиентской программой PolyAnalyst Workplace. Математические
модули выделены в серверную часть - PolyAnalyst
Knowledge Server. Такая архитектура предоставляет
естественную возможность для масштабирования
системы: от однопользовательского варианта
до корпоративного решения с несколькими
серверами. PolyAnalyst написан на языке С++
с использованием спецификации Microsoft's
COM (ActiveX). Эта спецификация устанавливает
стандарт коммуникации между программными
компонентами. Архитектура системы PolyAnalyst
представлена на рис. 9.
Рис. 9. Архитектура системы PolyAnalyst
Математические
модули (Exploration Engines) и многие другие компоненты
PolyAnalyst выделены в отдельные динамические
библиотеки и доступны из других приложений.
Это дает возможность интегрировать математику
PolyAnalyst в существующие ИС, например, в CRM-
или ERP- системы.
^ Общесистемные характеристики PolyAnalyst
Типы
данных
PolyAnalyst
работает с разными типами данных. Это:
числа, булевы переменные (yes/no), категориальные
переменные, текстовые строки, даты, а
также свободный английский текст.
Доступ
к данным
PolyAnalyst
может получать исходные данные из различных
источников. Это: текстовые файлы с разделителем
"запятая" (.csv), файлы Microsoft Excel 97/2000,
любая ODBC- совместимая СУБД, SAS data files, Oracle
Express, IBM Visual Warehouse.
Поддержка
OLE DB for Data Mining
Версия
4.6 PolyAnalyst поддерживает спецификацию Microsoft
OLE DB for Data Mining (Version 1.0). При выполнении исследований
для большинства математических модулей
(LR, FD, CL, FC, DT, DF, FL,PN, BA, TB) можно создавать
так называемые "Mining Models" (MM). После
завершения анализа эти модели можно применять
к внешним данным через стандартные интерфейсы
OLE DB или ADO из других программ или скриптов,
поддерживающих создание ADO или COM-объектов.
Применение модели осуществляется при
помощи выполнения SQL-команд (Расширение
SQL for DM). Mining Models можно также экспортировать
в PMML. В планах развития программы намечается
обеспечить интеграцию "PolyAnalyst DataMining
Provider" с Microsoft Analysis Services(в составе SQL
Server 2000).
In-place
Data Mining
PolyAnalyst
поддерживает запуск исследований на
внешних данных через OLE DB интерфейсы при
без загрузки этих данных в проект PA. При
выполнении исследования PolyAnalyst получает
данные порциями через исполнение SQL-запросов
к внешним источникам данных. Это позволяет
преодолеть ограничения памяти при исследовании
больших массивов данных. Данный процесс
продемонстрирован на рис. 10.
Рис. 10. In-place Data Mining
PolyAnalyst Scheduler - режим пакетной обработки
В
PolyAnalyst предусмотрена возможность пакетного
режима анализа данных. Для этого имеется
специальный скриптовый язык, на котором
программируется все аналитические действия
и временная последовательность их выполнения,
а также определяются наборы данных. Скрипт
сохраняется в файле и автоматически инициализирует
исследование в указанный момент времени
на определенных данных. Для реализации
функции Scheduler в электронной лицензии
должна быть включена соответствующая
опция.
В
таблице 2 описано семейство продуктов
PolyAnalyst6: продукты и соответствующие конфигурации
системы.
Таблица
2. Семейство продуктов PolyAnalyst
|
|
| |
|
|
|
|
|
|
|
|
| |
|
|
| |
|
|
^
Аббревиатура
KXEN означает "Knowledge eXtraction Engines" - "движки"
для извлечения знаний.
Сразу
следует сказать, что разработка KXEN имеет
особый подход к анализу данных [9]. В KXEN
нет деревьев решений, нейронных сетей
и других популярных техник.
KXEN
- это инструмент для моделирования, который
позволяет говорить об эволюции Data Mining
и реинжиниринге аналитического процесса
в организации в целом.
В
основе этих утверждений лежат достижения
современной математики и принципиально
иной подход к изучению явлений в бизнесе.
Следует
отметить, что все происходящее внутри
KXEN сильно отличается (по крайней мере,
по своей философии) от того, что мы привыкли
считать традиционным Data Mining.
Бизнес-моделирование
KXEN - это анализ деятельности компании
и ее окружения путем построения математических
моделей. Он используется в тех случаях,
когда необходимо понять взаимосвязь
между различными событиями и выявить
ключевые движущие силы и закономерности
в поведении интересующих нас объектов
или процессов.
KXEN
охватывает четыре основных типа аналитических
задач:
Построенная
модель в результате становится механизмом
анализа, т.е. частью бизнес-процесса организации.
Главная идея здесь - на основе построенных
моделей создать систему "сквозного"
анализа происходящих процессов, позволяющую
автоматически производить их оценку
и строить прогнозы в режиме реального
времени (по мере того, как те или иные
операции фиксируются учетными системами
организации).
^ Реинжиниринг аналитического процесса
Использование
в качестве инструмента для моделирования
программного обеспечения KXEN предлагает
усовершенствовать аналитический процесс,
устранив трудности, часто возникающие
в процессе поиска закономерностей, среди
которых: трудоемкость подготовки данных;
сложность выбора переменных, включенных
в модель; требования к квалификации аналитиков;
сложность интерпретации полученных результатов;
сложность построения моделей. Эти и другие
проблемы были нами рассмотрены на протяжении
курса лекций.
Особенность
KXEN заключается в том, что заложенный в
него математический аппарат (на основе
Теории минимизации структурного риска
Владимира Вапника) позволяет практически
полностью автоматизировать процесс
построения моделей и на порядок увеличить скорость
проводимого анализа. Отличия традиционного
процесса Data Mining и подхода KXEN приведены
на рис. 11.
Рис. 11. Отличия традиционного процесса
Data Mining и подхода KXEN
Таким
образом, построение модели в KXEN из исследовательского
проекта превращается в функцию предсказательного
анализа в режиме on-line в формате "вопрос-ответ".
Причем ответы даются в тех же терминах,
в которых был сформулирован вопрос, и
задача пользователя сводится к тому,
чтобы задавать нужные вопросы и указывать
данные для анализа.
Среди преимуществ KXEN
можно назвать:
^ Структура KXEN Analytic Framework Version 3.0
KXEN
Analytic Framework по своей сути не является монолитным
приложением, а выполняет роль компонента,
который встраивается в существующую
программную среду. Этот "движок"
может быть подключен к DBMS-системам (например,
Oracle или MS SQL-Server) через протоколы ODBS.
KXEN
Analytic Framework представляет собой набор модулей
для проведения описательного и предсказательного
анализа. Учитывая специфику задач конкретной
организации, конструируется оптимальный
вариант программного обеспечения KXEN.
Благодаря открытым программным интерфейсам,
KXEN легко встраивается в существующие
системы организации. Поэтому форма представления
результатов анализа, с которой будут
работать сотрудники на местах, может
определяться пожеланиями Заказчика и
особенностями его бизнес-процесса. На
рис. 12 представлена структура KXEN Analytic
Framework Version 3.0.
Рис. 12. Структура KXEN Analytic Framework Version
3.0
Технические характеристики продукта
KXEN
Analytic FrameworkTM представляет собой набор описательных
и предсказательных аналитических модулей,
которые можно скомбинировать в зависимости
от задачи заказчика. KXEN не является закрытым
приложением, он встраивается в существующие
системы организации, благодаря открытым
программным интерфейсам. Поэтому форма
представления результатов анализа, с
которой будут работать сотрудники на
местах, может определяться пожеланиями
Заказчика и особенностями его бизнес-процесса.
Средства
KXEN представляют собой приложения в архитектуре
Клиент/сервер. Сервер KXEN осуществляет
жизненный цикл модели - построение, обучение,
корректировку, использование новых данных.
С Клиентов осуществляется управление
указанными процессами. Могут быть использованы
стандартные клиентские рабочие места,
поставляемые KXEN, или разработаны новые
под конкретные задачи. Клиентское программное
обеспечение KXEN поставляется с исходными
кодами и может быть модифицировано или
взято в качестве основы для собственной
разработки.
Следует
отметить, что для работы с KXEN от пользователя
не требуется специальной квалификации
и знаний в области анализа и статистики.
От него требуются данные, которые требуется
проанализировать, и определение типа
задачи, которую нужно решить. Имеются
в виду задачи описательного или предсказательного
анализа или, говоря техническим языком,
задачи классификации, регрессии или кластеризации.
^
В
марте 1998 компания Oracle [10] объявила о совместной
деятельности с 7 партнерами - поставщиками
инструментов Data Mining. Далее последовало
включение в Oracle8i средств поддержки алгоритмов
Data mining. В июне 1999 года Oracle приобретает
Darwin (Thinking Machines Corp.). В 2000-2001 годах выходят
новые версии Darwin, Oracle Data Mining Suite. В июне
2001 года выходит Oracle9i Data Mining.
Oracle
Data Mining является опцией или модулем в Oracle
Enterprise Edition (версия Oracle Database 10g). Опция Oracle
Data Mining (ODM) предназначена для анализа данных
методами, относящимися к технологии извлечения
знаний, или Data Mining. В редакциях Personal Edition,
Standard Edition, OneStandard Edition эта опция недоступна.
ODM
поддерживает все этапы технологии извлечения
знаний, включая постановку задачи, подготовку
данных, автоматическое построение моделей,
анализ и тестирование результатов, использование
моделей в реальных приложениях [11].
Существенно,
что модели строятся автоматически на
основе анализа имеющихся данных об объектах,
наблюдениях и ситуациях с помощью специальных
алгоритмов. Основу опции ODM составляют
процедуры, реализующие различные алгоритмы
построения моделей классификации, регрессии,
кластеризации.
На
этапе подготовки данных обеспечивается
доступ к любым реляционным базам, текстовым
файлам, файлам формата SAS. Дополнительные
средства преобразования и очистки данных
позволяют изменять вид представления,
проводить нормализацию значений, выявлять
неопределенные или отсутствующие значения.
На основе подготовленных данных специальные
процедуры автоматически строят модели
для дальнейшего прогнозирования, классификации
новых ситуаций, выявления аналогий. ODM
поддерживает построение пяти различных
типов моделей. Графические средства предоставляют
широкие возможности для анализа полученных
результатов, верификации моделей на тестовых
наборах данных, оценки точности и устойчивости
результатов. Уточненные и проверенные
модели можно включать в существующие
приложения путем генерации их описаний
на С, C++, Java, а также разрабатывать новые
специализированные приложения с помощью
входящего в состав среды ODM средства разработки
Software Development Kit (SDK).
Важной
особенностью системы ODM являются его
технические характеристики: работа в
архитектуре клиент-сервер, широкое использование
техники параллельных вычислений, высокая
степень масштабируемости при увеличении
вычислительных ресурсов.
Характеристики
Oracle Data Mining :
Встроенные
алгоритмы извлечения знаний позволяют
упростить процесс извлечения знаний,
устраняют необходимость дополнительного
перемещения и хранения данных. Обладают
производительностью и масштабируемостью.
Oracle
Data Mining API. Использование Java API для разработки
на Java основано на принципах JDM (стандарт
для Data Mining).
Версия
Data Mining 10g поддерживает спектр алгоритмов,
которые приведены в таблице 3.
Таблица
3. Алгоритмы, реализованные в Oracle Data Mining
|
|
|
|
|
|
|
|
|
|
|
|
Особенность
алгоритмов, реализованных в Oracle Data Mining,
состоит в том, что все они работают непосредственно
с реляционными базами данных и не требуют
выгрузки и сохранения данных в специальных
форматах. Кроме собственно алгоритмов,
в опцию ODM входят средства подготовки
данных, оценки результатов, применения
моделей к новым наборам данных. Использовать
все эти возможности можно как на программном
уровне с помощью Java API или PL/SQL API, так и
с помощью графической среды ODM Client, которая
ориентирована на работу аналитиков, решающих
задачи прогнозирования, выявления тенденций,
сегментации и другие.
Oracle Data Mining - функциональные возможности
Функции
- Oracle Data Mining строит прогнозирующие и дескрипторные
модели.
Прогнозирующие
модели:
Дескрипторные
модели:
^
Таблица
4 Сравнение систем Data Mining
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|