Управление знаниями

Автор работы: Пользователь скрыл имя, 21 Января 2015 в 00:19, лекция

Описание работы

Управление знаниями (knowledge management) — новая дисциплина, занимающаяся вопросами создания и управления знаниями, представляющими интерес для компаний. Управление знаниями определяют также как совокупность процессов, которые управляют созданием, распространением, обработкой и использованием знаний внутри предприятия. Управление знаниями включает определение ценных для компании знаний, их распространение среди сотрудников компании, использование и генерирование новых знаний.
Среди теоретических предпосылок возникновения knowledge management (КМ) можно выделить следующие.

Файлы: 1 файл

Документ Microsoft Word.docx

— 291.41 Кб (Скачать файл)
    1. 4.9 Системы для  визуализации многомерных данных

 
В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь может служить программа DataMiner 3D словацкой фирмы Dimension5 (5-е измерение). 
 
В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений. Стоимость систем визуализации может достигать нескольких сотен долларов. 
^

    1. 5. Система PolyAnalyst

 
Назначение системы. Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний. PolyAnalyst находит многофакторные зависимости между переменными в базе данных, автоматически строит и тестирует многомерные нелинейные модели, выражающие найденные зависимости, выводит классификационные правила по обучающим примерам, находит в данных многомерные кластеры, строит алгоритмы решений. Разработчик системы PolyAnalyst - российская компания Megaputer Intelligence или "Мегапьютер" [8]. 
 
^ Архитектура системы 
 
По своей природе PolyAnalyst является клиент-серверным приложением. Пользователь работает с клиентской программой PolyAnalyst Workplace. Математические модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая архитектура предоставляет естественную возможность для масштабирования системы: от однопользовательского варианта до корпоративного решения с несколькими серверами. PolyAnalyst написан на языке С++ с использованием спецификации Microsoft's COM (ActiveX). Эта спецификация устанавливает стандарт коммуникации между программными компонентами. Архитектура системы PolyAnalyst представлена на рис. 9. 
 
 
Рис. 9.  Архитектура системы PolyAnalyst 
 
Математические модули (Exploration Engines) и многие другие компоненты PolyAnalyst выделены в отдельные динамические библиотеки и доступны из других приложений. Это дает возможность интегрировать математику PolyAnalyst в существующие ИС, например, в CRM- или ERP- системы. 
 
^ Общесистемные характеристики PolyAnalyst 
 
Типы данных 
 
PolyAnalyst работает с разными типами данных. Это: числа, булевы переменные (yes/no), категориальные переменные, текстовые строки, даты, а также свободный английский текст.  
 
Доступ к данным 
 
PolyAnalyst может получать исходные данные из различных источников. Это: текстовые файлы с разделителем "запятая" (.csv), файлы Microsoft Excel 97/2000, любая ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.  
 
Поддержка OLE DB for Data Mining 
 
Версия 4.6 PolyAnalyst поддерживает спецификацию Microsoft OLE DB for Data Mining (Version 1.0). При выполнении исследований для большинства математических модулей (LR, FD, CL, FC, DT, DF, FL,PN, BA, TB) можно создавать так называемые "Mining Models" (MM). После завершения анализа эти модели можно применять к внешним данным через стандартные интерфейсы OLE DB или ADO из других программ или скриптов, поддерживающих создание ADO или COM-объектов. Применение модели осуществляется при помощи выполнения SQL-команд (Расширение SQL for DM). Mining Models можно также экспортировать в PMML. В планах развития программы намечается обеспечить интеграцию "PolyAnalyst DataMining Provider" с Microsoft Analysis Services(в составе SQL Server 2000). 
 
In-place Data Mining 
 
PolyAnalyst поддерживает запуск исследований на внешних данных через OLE DB интерфейсы при без загрузки этих данных в проект PA. При выполнении исследования PolyAnalyst получает данные порциями через исполнение SQL-запросов к внешним источникам данных. Это позволяет преодолеть ограничения памяти при исследовании больших массивов данных. Данный процесс продемонстрирован на рис. 10. 
 
 
Рис. 10.  In-place Data Mining 
 
PolyAnalyst Scheduler - режим пакетной обработки 
 
В PolyAnalyst предусмотрена возможность пакетного режима анализа данных. Для этого имеется специальный скриптовый язык, на котором программируется все аналитические действия и временная последовательность их выполнения, а также определяются наборы данных. Скрипт сохраняется в файле и автоматически инициализирует исследование в указанный момент времени на определенных данных. Для реализации функции Scheduler в электронной лицензии должна быть включена соответствующая опция. 
 
В таблице 2 описано семейство продуктов PolyAnalyst6: продукты и соответствующие конфигурации системы. 
 
Таблица 2. Семейство продуктов PolyAnalyst

 
Продукт

 
Конфигурация системы

 
^ Локальные продукты

 
PolyAnalyst 4.6, однопользовательская версия

 
Математические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF, LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB. Платформа - MS Windows NT/2000/XP

 
PolyAnalyst 3.5 Professional (русс.)

 
Математические модули: FL, FD, PN, FC, CL, DS, LR, SS. Платформа - MS Windows NT/2000/XP

 
PolyAnalyst 3.5 Power (русс.)

 
Математические модули: FD, PN, FC, CL, DS, LR, SS. Платформа - MS Windows 98/NT/2000/XP

 
PolyAnalyst 3.5 Lite - студенческая  версия (русс.)

 
Математические модули: FD, FC, CL, DS, LR, SS. Платформа - MS Windows 98/NT/2000/XP

 
^ Сетевые продукты

 
PolyAnalyst Knowledge Server 4.6, сетевая версия

 
Математические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF, LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB, In-Place Data Mining. Серверная часть - MS Windows NT/2000/XP server, клиентская часть - MS Windows 98/NT/2000/XP. Клиент/серверная версия системы

 
^ Средства разработки 

 
PolyAnalyst COM - SDK для создания собственных  приложений для Data Mining

 
Набор COM-объектов, библиотеки, документация для разработчиков


 
 
^

    1. 6. Инструмент KXEN

 
Аббревиатура KXEN означает "Knowledge eXtraction Engines" - "движки" для извлечения знаний. 
 
Сразу следует сказать, что разработка KXEN имеет особый подход к анализу данных [9]. В KXEN нет деревьев решений, нейронных сетей и других популярных техник. 
 
KXEN - это инструмент для моделирования, который позволяет говорить об эволюции Data Mining и реинжиниринге аналитического процесса в организации в целом. 
 
В основе этих утверждений лежат достижения современной математики и принципиально иной подход к изучению явлений в бизнесе. 
 
Следует отметить, что все происходящее внутри KXEN сильно отличается (по крайней мере, по своей философии) от того, что мы привыкли считать традиционным Data Mining. 
 
Бизнес-моделирование KXEN - это анализ деятельности компании и ее окружения путем построения математических моделей. Он используется в тех случаях, когда необходимо понять взаимосвязь между различными событиями и выявить ключевые движущие силы и закономерности в поведении интересующих нас объектов или процессов.  
 
KXEN охватывает четыре основных типа аналитических задач: 

  •  
    Задачи регрессии/классификации (в т.ч. определение вкладов переменных); 
  •  
    Задачи сегментации/кластеризации; 
  •  
    Анализ временных рядов; 
  •  
    Поиск ассоциативных правил (анализ потребительской корзины).

 
Построенная модель в результате становится механизмом анализа, т.е. частью бизнес-процесса организации. Главная идея здесь - на основе построенных моделей создать систему "сквозного" анализа происходящих процессов, позволяющую автоматически производить их оценку и строить прогнозы в режиме реального времени (по мере того, как те или иные операции фиксируются учетными системами организации).  
 
^ Реинжиниринг аналитического процесса 
 
Использование в качестве инструмента для моделирования программного обеспечения KXEN предлагает усовершенствовать аналитический процесс, устранив трудности, часто возникающие в процессе поиска закономерностей, среди которых: трудоемкость подготовки данных; сложность выбора переменных, включенных в модель; требования к квалификации аналитиков; сложность интерпретации полученных результатов; сложность построения моделей. Эти и другие проблемы были нами рассмотрены на протяжении курса лекций.  
 
Особенность KXEN заключается в том, что заложенный в него математический аппарат (на основе Теории минимизации структурного риска Владимира Вапника) позволяет практически полностью автоматизировать процесс построения моделей и на порядок увеличить скорость проводимого анализа. Отличия традиционного процесса Data Mining и подхода KXEN приведены на рис. 11. 
 
 
Рис. 11.  Отличия традиционного процесса Data Mining и подхода KXEN 
 
Таким образом, построение модели в KXEN из исследовательского проекта превращается в функцию предсказательного анализа в режиме on-line в формате "вопрос-ответ". Причем ответы даются в тех же терминах, в которых был сформулирован вопрос, и задача пользователя сводится к тому, чтобы задавать нужные вопросы и указывать данные для анализа.  
 
Среди преимуществ KXEN можно назвать: 

  •  
    Удобная и безопасная работа с данными: данные никуда не перегружаются, KXEN обрабатывает их строка за строкой (текстовые файлы или интеграция с DB2, Oracle и MS SQL Server, в т.ч. через ODBC); 
  •  
    Наглядность результатов моделирования, легкость для понимания: графическое отображение моделей + score-карты; 
  •  
    Широкие возможности применения моделей: автоматическая генерация кода моделей на языках С++, XML, PMML, HTML, AWK, SQL, JAVA, VB, SAS, при этом модель сможет работать автономно.

 
^ Структура KXEN Analytic Framework Version 3.0 
 
KXEN Analytic Framework по своей сути не является монолитным приложением, а выполняет роль компонента, который встраивается в существующую программную среду. Этот "движок" может быть подключен к DBMS-системам (например, Oracle или MS SQL-Server) через протоколы ODBS. 
 
KXEN Analytic Framework представляет собой набор модулей для проведения описательного и предсказательного анализа. Учитывая специфику задач конкретной организации, конструируется оптимальный вариант программного обеспечения KXEN. Благодаря открытым программным интерфейсам, KXEN легко встраивается в существующие системы организации. Поэтому форма представления результатов анализа, с которой будут работать сотрудники на местах, может определяться пожеланиями Заказчика и особенностями его бизнес-процесса. На рис. 12 представлена структура KXEN Analytic Framework Version 3.0. 
 
 
 
Рис. 12.  Структура KXEN Analytic Framework Version 3.0 
 
Технические характеристики продукта 
 
KXEN Analytic FrameworkTM представляет собой набор описательных и предсказательных аналитических модулей, которые можно скомбинировать в зависимости от задачи заказчика. KXEN не является закрытым приложением, он встраивается в существующие системы организации, благодаря открытым программным интерфейсам. Поэтому форма представления результатов анализа, с которой будут работать сотрудники на местах, может определяться пожеланиями Заказчика и особенностями его бизнес-процесса.  
 
Средства KXEN представляют собой приложения в архитектуре Клиент/сервер. Сервер KXEN осуществляет жизненный цикл модели - построение, обучение, корректировку, использование новых данных. С Клиентов осуществляется управление указанными процессами. Могут быть использованы стандартные клиентские рабочие места, поставляемые KXEN, или разработаны новые под конкретные задачи. Клиентское программное обеспечение KXEN поставляется с исходными кодами и может быть модифицировано или взято в качестве основы для собственной разработки. 
 
Следует отметить, что для работы с KXEN от пользователя не требуется специальной квалификации и знаний в области анализа и статистики. От него требуются данные, которые требуется проанализировать, и определение типа задачи, которую нужно решить. Имеются в виду задачи описательного или предсказательного анализа или, говоря техническим языком, задачи классификации, регрессии или кластеризации. 
^

    1. 7. Oracle Data Mining

 
В марте 1998 компания Oracle [10] объявила о совместной деятельности с 7 партнерами - поставщиками инструментов Data Mining. Далее последовало включение в Oracle8i средств поддержки алгоритмов Data mining. В июне 1999 года Oracle приобретает Darwin (Thinking Machines Corp.). В 2000-2001 годах выходят новые версии Darwin, Oracle Data Mining Suite. В июне 2001 года выходит Oracle9i Data Mining. 
 
Oracle Data Mining является опцией или модулем в Oracle Enterprise Edition (версия Oracle Database 10g). Опция Oracle Data Mining (ODM) предназначена для анализа данных методами, относящимися к технологии извлечения знаний, или Data Mining. В редакциях Personal Edition, Standard Edition, OneStandard Edition эта опция недоступна. 
 
ODM поддерживает все этапы технологии извлечения знаний, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях [11]. 
 
Существенно, что модели строятся автоматически на основе анализа имеющихся данных об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов. Основу опции ODM составляют процедуры, реализующие различные алгоритмы построения моделей классификации, регрессии, кластеризации.  
 
На этапе подготовки данных обеспечивается доступ к любым реляционным базам, текстовым файлам, файлам формата SAS. Дополнительные средства преобразования и очистки данных позволяют изменять вид представления, проводить нормализацию значений, выявлять неопределенные или отсутствующие значения. На основе подготовленных данных специальные процедуры автоматически строят модели для дальнейшего прогнозирования, классификации новых ситуаций, выявления аналогий. ODM поддерживает построение пяти различных типов моделей. Графические средства предоставляют широкие возможности для анализа полученных результатов, верификации моделей на тестовых наборах данных, оценки точности и устойчивости результатов. Уточненные и проверенные модели можно включать в существующие приложения путем генерации их описаний на С, C++, Java, а также разрабатывать новые специализированные приложения с помощью входящего в состав среды ODM средства разработки Software Development Kit (SDK). 
 
Важной особенностью системы ODM являются его технические характеристики: работа в архитектуре клиент-сервер, широкое использование техники параллельных вычислений, высокая степень масштабируемости при увеличении вычислительных ресурсов.  
 
Характеристики Oracle Data Mining : 

  •  
    Встроенные в Oracle Database алгоритмы извлечения знаний (DataMining Server). 
  •  
    DM-инфраструктура вместо готовой инструментальной среды. 
  •  
    API для разработки.

 
Встроенные алгоритмы извлечения знаний позволяют упростить процесс извлечения знаний, устраняют необходимость дополнительного перемещения и хранения данных. Обладают производительностью и масштабируемостью. 
 
Oracle Data Mining API. Использование Java API для разработки на Java основано на принципах JDM (стандарт для Data Mining). 
 
Версия Data Mining 10g поддерживает спектр алгоритмов, которые приведены в таблице 3. 
 
Таблица 3. Алгоритмы, реализованные в Oracle Data Mining

 
Классификационные модели

 
Na_ve Bayes, Adaptive Bayes Network

 
Классификации и регрессионные модели

 
Support Vector Machine

 
Поиск существенных атрибутов

 
Minimal Descriptor Length

 
Кластеризация

 
Enhanced K-means, O-cluster

 
Поиск ассоциаций

 
Apriory Algorithm

 
Выделение признаков

 
Non-Negative Matrix Factorization


 
Особенность алгоритмов, реализованных в Oracle Data Mining, состоит в том, что все они работают непосредственно с реляционными базами данных и не требуют выгрузки и сохранения данных в специальных форматах. Кроме собственно алгоритмов, в опцию ODM входят средства подготовки данных, оценки результатов, применения моделей к новым наборам данных. Использовать все эти возможности можно как на программном уровне с помощью Java API или PL/SQL API, так и с помощью графической среды ODM Client, которая ориентирована на работу аналитиков, решающих задачи прогнозирования, выявления тенденций, сегментации и другие.  
 
 
Oracle Data Mining - функциональные возможности 
 
Функции - Oracle Data Mining строит прогнозирующие и дескрипторные модели. 
 
Прогнозирующие модели: 

  •  
    классификация; 
  •  
    регрессия; 
  •  
    поиск существенных атрибутов.

 
Дескрипторные модели: 

  •  
    кластеризация; 
  •  
    поиск ассоциаций; 
  •  
    выделение признаков.

^

    1. 8. Сравнение систем Data Mining

 
Таблица 4 Сравнение систем Data Mining

 

 

 
PolyAnalist

 
Oracle Data Mining

 
KXEN

 
Архитектура

 
Клиент/Сервер

 
Клиент/Сервер

 
Клиент/Сервер

 
Типы данных

 
числа, булевы переменные, категориальные переменные, текстовые строки, даты.

 
числа, булевы переменные, категориальные переменные, текстовые строки, даты.

 
числа, булевы переменные, категориальные переменные, текстовые строки, даты.

 
Операционная система

 
Серверная часть - MS Windows NT/2000/XP server 
 
Клиентская часть - MS Windows 98/NT/2000/XP

 
Кроссплатформенная система, возможность применения тонкого клиента.

 
Кроссплатформенная система, возможность применения тонкого клиента.

 
Особенности

 
Поддержка OLE DB for Data Mining, In-place Data Mining, PolyAnalyst Scheduler

 
обеспечивается доступ к любым реляционным базам, 
 
автоматическое построение моделей для дальнейшего прогнозирования, 
 
разработка новых специализированных приложений с помощью Software Development Kit (SDK), 
 
использование техники параллельных вычислений, 
 
высокая степень масштабируемости при увеличении вычислительных ресурсов, 
 
использование Java API для разработки на Java

 
Удобная и безопасная работа с данными. 
 
Наглядность результатов моделирования, легкость для понимания: графическое отображение моделей + score-карты. 
 
Автоматическая генерация кода моделей на языках С++, XML, PMML, HTML, AWK, SQL, JAVA, VB, SAS, при этом модель сможет работать автономно

Информация о работе Управление знаниями