Проблема извлечения знаний

Автор работы: Пользователь скрыл имя, 24 Июля 2013 в 16:00, реферат

Описание работы

Разработка теории, методов и технологий представления и использования знаний остается актуальной задачей для дальнейшего развития интеллектуальных систем. Одна из них, наиболее важная и актуальная, по нашему мнению на современном этапе, является проблема извлечения знаний. Уже сейчас ясно, что применение систем, основанных на знаниях, должно привести к рассмотрению и использованию Всемирной паутины как организованного и структурированного пространства знаний.

Содержание работы

Введение 3
1. Теория, основные понятия. 4
2. Стратегия получения знаний. 5
3. Практические методы извлечения знаний. 6
4. Методика извлечения знаний из эксперта на примере. 7
4.1. Проблема извлечения знаний. 7
Заключение 19
Список литературы 20

Файлы: 1 файл

ИИС реферат.docx

— 570.98 Кб (Скачать файл)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ  И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Байкальский государственный  университет экономики и права

 

 

 

 

РЕФЕРАТ

По дисциплине «Интеллектуальные информационные системы»

На тему:

«Проблема извлечения знаний»

 

 

 

Исполнитель:  Прохоров В. А.

Группа УИС-3\09

Руководитель: Хитрова Т.И.

 

 

 

Иркутск 2012

 

Содержание

 

Введение                                                                                                        3

  1. Теория, основные понятия.                                                                       4
  2. Стратегия получения знаний.                                                                   5
  3. Практические методы извлечения знаний.                                            6
  4. Методика извлечения знаний из эксперта на примере.                       7
    1. Проблема извлечения знаний.                                              7

Заключение                                                                                                 19

Список литературы                                                                                   20

 

 

 

 

 

 

 

 

 

 

 

 

Ведение

В настоящее  время в области баз знаний интеллектуальных систем уже имеется  серьезный теоретический базис, существует достаточно широкий спектр соответствующих методов и технологий разработки. Многие из них поддержаны адекватным программным инструментарием.

Не секрет, что для построения и использования  баз знаний, на которых основываются современные интеллектуальные системы, требуются исследовательские коллективы, работающие вместе долго и имеющие  опыт разработки такого рода систем. Для  получения действительно хороших  результатов необходимы дорогостоящие  людские и материальные ресурсы  — специалисты, лицензионные инструментарии, документация. Кроме того, разработка их достаточно трудоемкий (годы) и дорогостоящий (десятки, если не сотни тыс. долларов) процесс. Вот почему в настоящее  время действующие интеллектуальные системы ориентированы в основном на поддержку работы постоянно работающих групп пользователей для достаточно специализированных задач. Следует  отметить и то, что в настоящее  время почти нет действительно  интеллектуальных систем, удобных для  работы широкого круга пользователей  в сети Интернет.

Таким образом, разработка теории, методов и технологий представления и использования  знаний остается актуальной задачей  для дальнейшего развития интеллектуальных систем. Одна из них, наиболее важная и актуальная, по нашему мнению на современном этапе, является проблема извлечения знаний. Уже сейчас ясно, что применение систем, основанных на знаниях, должно привести к рассмотрению и использованию Всемирной паутины как организованного и структурированного пространства знаний.

 

 

 

  1. Теория, основные понятия.

Термин  интеллект (intelligence) происходит от латинского intellectus — что означает ум, рассудок, разум; мыслительные способности человека. Соответственно искусственный интеллект (artificial intelligence) — ИИ (AI) обычно толкуется, как свойство автоматических систем брать на себя отдельные функции  интеллекта человека, например, выбирать и принимать оптимальные решения  на основе ранее полученного опыта  и рационального анализа внешних  воздействий.

Интеллектом называется способность мозга решать (интеллектуальные) задачи путем приобретения, запоминания и целенаправленного  преобразования знаний в процессе обучения на опыте и адаптации к разнообразным  обстоятельствам1.

В этом определении  под термином "знания" подразумевается  не только ту информацию, которая поступает  в мозг через органы чувств. Такого типа знания чрезвычайно важны, но недостаточны для интеллектуальной деятельности. Дело в том, что объекты окружающей нас среды обладают свойством  не только воздействовать на органы чувств, но и находиться друг с другом в  определенных отношениях. Ясно, что  для того, чтобы осуществлять в  окружающей среде интеллектуальную деятельность (или хотя бы просто существовать), необходимо иметь в системе знаний модель этого мира. В этой информационной модели окружающей среды реальные объекты, их свойства и отношения между  ними не только отображаются и запоминаются, но и, как это отмечено в данном определении интеллекта, могут мысленно "целенаправленно преобразовываться". При этом существенно то, что формирование модели внешней среды происходит "в процессе обучения на опыте  и адаптации к разнообразным  обстоятельствам".

База знаний - это один из структурных элементов  экспертной системы.

Экспертная  система – это интеллектуальная программа, способная делать логические выводы на основании знаний в конкретной предметной области и обеспечивающая решение специфических задач.

 

2. Стратегия получения знаний

Выделяют  три стратегии получения знаний – приобретение знаний, извлечение знаний и обнаружение знаний в  базах данных:

Под приобретением (acquisition) знаний понимают способ автоматизированного  наполнения базы знаний посредством  диалога эксперта и специальной  программы.

Извлечением (elicitation) знаний называют процедуру взаимодействия инженера по знаниям с источником знаний (экспертом, специальной литературой  и др.) без использований вычислительной техники.     Извлечение знаний предполагает изучение множества источников знаний, к которым относятся специальная литература, базы фактуальных знаний, отчеты о решении аналогичных проблем, а самое главное, опыт работы специалистов в исследуемой проблемной области - экспертов. Успех проектирования экспертной системы во многом определяется тем, насколько компетентны привлекаемые к разработке эксперты и насколько они способны передать свой опыт инженерам по знаниям. Вместе с тем, эксперты не имеют представления о возможностях и ограничениях ЭС. Следовательно процесс разработки ЭС должен быть организован инженерами по знаниям таким образом, чтобы в процессе их итеративного взаимодействия с экспертами они получили весь необходимый объем знаний для решения четко очерченных проблем.

Термином  “обнаружение знаний в базах данных” (knowledge discovery in databases – KDD) сегодня обозначают процесс получения из “сырых”  данных новой, потенциально полезной информации о предметной области. Этот процесс  включает несколько этапов (рис. 1.2). Сюда относится накопление сырых  данных, отбор, подготовка, преобразование данных, поиск закономерностей в данных, оценка, обобщение и структурирование найденных закономерностей.

Рис. 1.2. Процесс  обнаружения знаний в БД

 

 

 

  1. Практические методы извлечения данных

 

Классификация методов извлечения знаний (рис. 1.3) позволит инженерам по знаниям, в  зависимости от конкретной задачи и  ситуации, выбрать конкретный метод. Из предложенной схемы классификации  видно, что основной принцип деления  связан с источником знаний. Коммуникативные  методы охватывают все виды контактов  с живым источником знаний - экспертом, а текстологические касаются методов  извлечения знаний из документов (методик, пособий, руководств) и специальной  литературы (статей, монографий, учебников).

Разделение  этих групп методов на верхнем  уровне классификации не означает их антагонистичности, обычно инженер  по знаниям комбинирует различные  методы, например, сначала изучает  литературу, затем беседует с экспертами, или наоборот.

 

Рис. 1.3. Классификация  методов извлечения знаний.

 

 

В свою очередь, коммуникативные методы можно также  разделить на две группы: активные и пассивные. Пассивные методы подразумевают, что ведущая роль в процедуре  извлечения знаний как бы передается эксперту, а инженер по знаниям  только протоколирует рассуждения  эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме  лекции. В активных методах, напротив, инициатива полностью в руках  инженера по знаниям, который активно  контактирует с экспертом различными способами - в играх, диалогах, беседах  за "круглым столом" и т.д.

Пассивные методы на первый взгляд достаточно просты, но на самом деле требуют oт инженера по знаниям умения четко анализировать "поток сознания" эксперта и  выявлять в нем значимые фрагменты  знаний. Отсутствие обратной связи (пассивность  инженера по знаниям) значительно ослабляет  эффективность этих методов, чем  и объясняется их обычно вспомогательная  роль при активных методах.

Активные  методы можно разделить на две  группы в зависимости от числа  экспертов, отдающих свои знания. Если их число больше одного, то целесообразно  помимо серии индивидуальных контактов  с каждым применять и методы групповых  обсуждений предметной области. Такие  групповые методы обычно активизируют мышление участников дискуссий и  позволяют выявлять весьма нетривиальные  аспекты их знаний. В свою очередь, индивидуальные методы на сегодняшний  день остаются ведущими, поскольку  столь деликатная процедура, как "отъем  знаний", не терпит лишних свидетелей.

 

    1. Методика извлечения знаний из эксперта на примере

 

В работе приводится методика извлечения знаний из эксперта,  основанная на свойстве монотонности.  Эта методика позволяет  извлечь из эксперта Булеву функцию  принятия решений и переписать её в виде системы правил.

Методика  использует свойство монотонности, что  сильно сокращает количество вопросов, задаваемых эксперту, и тем самым  дает возможность извлекать сложные  булевы функции знаний за приемлемое время.  Даная методика иллюстрируется примером извлечения знаний из эксперта James Ruiz при создании диагностической  системы рака груди для Baton Rouge, (Louisiana), Women hospital.

Ключевые  слова: извлечение знаний из эксперта,  экспертные системы,  базы знаний, экспертные оценки.

 

4.1. Проблема извлечения знаний из эксперта

В данной работе описывается методика извлечения знаний из эксперта.  Эти знания, представленные множеством правил,  могут служить ядром компьютерной диагностической системы.  Разработанная  методика [Kovalerchuk B., Vityaev E., 1997, 2000, 2001]  основана на свойстве монотонности.  Преимущества методики показаны на примере компьютерной системы диагностики рака груди. 

В США  рак груди –  наиболее часто  встречаемый женский рак [Wingo P.A.].  Наиболее эффективный метод борьбы против рака груди –  скрининг маммограмм.  Однако было обнаружено,  что есть значительная интра-  и интернаблюдателя вариабельность маммографической интерпретации  (до 25 %).  Дополнительно,  несколько  ретроспективных исследований нашли,  что ошибка варьируется в пределах от 20  до 43 %.  Эти данные ясно демонстрируют  потребность улучшить надежность маммографической интерпретации. 

Архивы  маммографии в больницах во всем мире содержат миллионы результатов  биопсии и маммограмм.  Несколько  университетов и больниц создали  базы данных изображений маммографии,  которые являются доступными в Интернете.  Такие усилия обеспечивают возможность  масштабного анализа данных и  извлечения знаний в области диагностики  рака груди. 

Обнаружение полного множества экспертных правил –  экспоненциально сложная задача.

Полный  опрос эксперта может потребовать  задания тысячи вопросов эксперту.  Это известная проблема при разработке экспертных систем.  Например,  для 11  бинарных диагностических признаков  мы получаем

(2 11  = 2 048)  комбинаций признаков,  каждый  из которых может дать

отдельное правило.  Лобовой метод потребовал бы опроса эксперта для каждой из этих 2 048  комбинаций.   

2. Иерархический  подход.

Извлечение  знаний из эксперта основано на оригинальном методе восстановления Булевых функций  с использованием свойства монотонности [Kovalerchuk B., 1996].  Мы будем иллюстрировать метод на примере диагностической системы рака груди,  но специфика задачи практически не будет сказываться на общности метода.

Если попросить  эксперта оценить конкретный случай,  представленный набором значений признаков, то типичный вопрос будет иметь следующий  вид: 

«Если признак 1 имеет значение V1, признак 2, имеет  значение V2 ..., признак n имеет значение Vn,  то соответствует ли упомянутый набор значений признаков случаю подозрительному к раку или нет? ».  

Каждый  набор признаков (V1, V2, ..., Vn) представляет возможный клинический случай. 

Первая  задача состоит в том, что бы свести все признаки к бинарным признакам, разбив их значения на два класса –  связанных с подозрением на рак  и нет. 

Вторая  задача состоит в том,  что бы построить иерархию признаков,  начиная  с общих   признаков и кончая менее общими признаками.  Эта  иерархия начинается с определения 11  медицинских первичных бинарных признаков. 

Медик-эксперт  обнаружил, что первичные 11 бинарных признаков w1, w2, w3, y1, y2, y3, y4, y5, x3, x4, x5 могут  быть представлены иерархией с добавлением  двух новых обобщенных признаков x1 и x2:

Уровень 1 (5 признаков)   Уровень 2 (все 11 признаков)

x1                                      w1, w2, w3

x2                                       y1, y2, y3, y4, y5

x3                                       x3

x4                                       x4

x5                                       x5,

Мы рассматриваем  пять бинарных признаков x1, x2, x3, x4, и x5, на уровне 1. 

Новый обобщенный признак: x1 – «Количество и объем  кальцинозов»  со значениями (0 –  «доброкачественный»  и 1 – «рак»)  обобщает признаки связанные с количеством  и объемом кальцинозов:

Информация о работе Проблема извлечения знаний