Автор работы: Пользователь скрыл имя, 24 Июля 2013 в 16:00, реферат
Разработка теории, методов и технологий представления и использования знаний остается актуальной задачей для дальнейшего развития интеллектуальных систем. Одна из них, наиболее важная и актуальная, по нашему мнению на современном этапе, является проблема извлечения знаний. Уже сейчас ясно, что применение систем, основанных на знаниях, должно привести к рассмотрению и использованию Всемирной паутины как организованного и структурированного пространства знаний.
Введение 3
1. Теория, основные понятия. 4
2. Стратегия получения знаний. 5
3. Практические методы извлечения знаний. 6
4. Методика извлечения знаний из эксперта на примере. 7
4.1. Проблема извлечения знаний. 7
Заключение 19
Список литературы 20
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Байкальский государственный университет экономики и права
РЕФЕРАТ
По дисциплине «Интеллектуальные информационные системы»
На тему:
«Проблема извлечения знаний»
Исполнитель: Прохоров В. А.
Группа УИС-3\09
Руководитель: Хитрова Т.И.
Иркутск 2012
Содержание
Введение
Заключение
Список литературы
Ведение
В настоящее
время в области баз знаний
интеллектуальных систем уже имеется
серьезный теоретический базис,
существует достаточно широкий спектр
соответствующих методов и
Не секрет,
что для построения и использования
баз знаний, на которых основываются
современные интеллектуальные системы,
требуются исследовательские
Таким образом, разработка теории, методов и технологий представления и использования знаний остается актуальной задачей для дальнейшего развития интеллектуальных систем. Одна из них, наиболее важная и актуальная, по нашему мнению на современном этапе, является проблема извлечения знаний. Уже сейчас ясно, что применение систем, основанных на знаниях, должно привести к рассмотрению и использованию Всемирной паутины как организованного и структурированного пространства знаний.
Термин
интеллект (intelligence) происходит от латинского
intellectus — что означает ум, рассудок,
разум; мыслительные способности человека.
Соответственно искусственный интеллект
(artificial intelligence) — ИИ (AI) обычно толкуется,
как свойство автоматических систем
брать на себя отдельные функции
интеллекта человека, например, выбирать
и принимать оптимальные
Интеллектом
называется способность мозга решать
(интеллектуальные) задачи путем приобретения,
запоминания и
В этом определении
под термином "знания" подразумевается
не только ту информацию, которая поступает
в мозг через органы чувств. Такого
типа знания чрезвычайно важны, но недостаточны
для интеллектуальной деятельности.
Дело в том, что объекты окружающей
нас среды обладают свойством
не только воздействовать на органы чувств,
но и находиться друг с другом в
определенных отношениях. Ясно, что
для того, чтобы осуществлять в
окружающей среде интеллектуальную
деятельность (или хотя бы просто существовать),
необходимо иметь в системе знаний
модель этого мира. В этой информационной
модели окружающей среды реальные объекты,
их свойства и отношения между
ними не только отображаются и запоминаются,
но и, как это отмечено в данном
определении интеллекта, могут мысленно
"целенаправленно
База знаний - это один из структурных элементов экспертной системы.
Экспертная система – это интеллектуальная программа, способная делать логические выводы на основании знаний в конкретной предметной области и обеспечивающая решение специфических задач.
2. Стратегия получения знаний
Выделяют три стратегии получения знаний – приобретение знаний, извлечение знаний и обнаружение знаний в базах данных:
Под приобретением (acquisition) знаний понимают способ автоматизированного наполнения базы знаний посредством диалога эксперта и специальной программы.
Извлечением (elicitation) знаний
называют процедуру взаимодействия
инженера по знаниям с источником
знаний (экспертом, специальной литературой
и др.) без использований
Термином “обнаружение знаний в базах данных” (knowledge discovery in databases – KDD) сегодня обозначают процесс получения из “сырых” данных новой, потенциально полезной информации о предметной области. Этот процесс включает несколько этапов (рис. 1.2). Сюда относится накопление сырых данных, отбор, подготовка, преобразование данных, поиск закономерностей в данных, оценка, обобщение и структурирование найденных закономерностей.
Рис. 1.2. Процесс обнаружения знаний в БД
Классификация методов извлечения знаний (рис. 1.3) позволит инженерам по знаниям, в зависимости от конкретной задачи и ситуации, выбрать конкретный метод. Из предложенной схемы классификации видно, что основной принцип деления связан с источником знаний. Коммуникативные методы охватывают все виды контактов с живым источником знаний - экспертом, а текстологические касаются методов извлечения знаний из документов (методик, пособий, руководств) и специальной литературы (статей, монографий, учебников).
Разделение этих групп методов на верхнем уровне классификации не означает их антагонистичности, обычно инженер по знаниям комбинирует различные методы, например, сначала изучает литературу, затем беседует с экспертами, или наоборот.
Рис. 1.3. Классификация методов извлечения знаний.
В свою очередь, коммуникативные методы можно также разделить на две группы: активные и пассивные. Пассивные методы подразумевают, что ведущая роль в процедуре извлечения знаний как бы передается эксперту, а инженер по знаниям только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме лекции. В активных методах, напротив, инициатива полностью в руках инженера по знаниям, который активно контактирует с экспертом различными способами - в играх, диалогах, беседах за "круглым столом" и т.д.
Пассивные методы на первый взгляд достаточно просты, но на самом деле требуют oт инженера по знаниям умения четко анализировать "поток сознания" эксперта и выявлять в нем значимые фрагменты знаний. Отсутствие обратной связи (пассивность инженера по знаниям) значительно ослабляет эффективность этих методов, чем и объясняется их обычно вспомогательная роль при активных методах.
Активные методы можно разделить на две группы в зависимости от числа экспертов, отдающих свои знания. Если их число больше одного, то целесообразно помимо серии индивидуальных контактов с каждым применять и методы групповых обсуждений предметной области. Такие групповые методы обычно активизируют мышление участников дискуссий и позволяют выявлять весьма нетривиальные аспекты их знаний. В свою очередь, индивидуальные методы на сегодняшний день остаются ведущими, поскольку столь деликатная процедура, как "отъем знаний", не терпит лишних свидетелей.
В работе приводится методика извлечения знаний из эксперта, основанная на свойстве монотонности. Эта методика позволяет извлечь из эксперта Булеву функцию принятия решений и переписать её в виде системы правил.
Методика использует свойство монотонности, что сильно сокращает количество вопросов, задаваемых эксперту, и тем самым дает возможность извлекать сложные булевы функции знаний за приемлемое время. Даная методика иллюстрируется примером извлечения знаний из эксперта James Ruiz при создании диагностической системы рака груди для Baton Rouge, (Louisiana), Women hospital.
Ключевые слова: извлечение знаний из эксперта, экспертные системы, базы знаний, экспертные оценки.
4.1. Проблема извлечения знаний из эксперта
В данной
работе описывается методика извлечения
знаний из эксперта. Эти знания,
представленные множеством правил,
могут служить ядром
В США рак груди – наиболее часто встречаемый женский рак [Wingo P.A.]. Наиболее эффективный метод борьбы против рака груди – скрининг маммограмм. Однако было обнаружено, что есть значительная интра- и интернаблюдателя вариабельность маммографической интерпретации (до 25 %). Дополнительно, несколько ретроспективных исследований нашли, что ошибка варьируется в пределах от 20 до 43 %. Эти данные ясно демонстрируют потребность улучшить надежность маммографической интерпретации.
Архивы
маммографии в больницах во всем
мире содержат миллионы результатов
биопсии и маммограмм. Несколько
университетов и больниц
Обнаружение
полного множества экспертных правил
– экспоненциально сложная
Полный опрос эксперта может потребовать задания тысячи вопросов эксперту. Это известная проблема при разработке экспертных систем. Например, для 11 бинарных диагностических признаков мы получаем
(2 11 = 2 048) комбинаций признаков, каждый из которых может дать
отдельное правило. Лобовой метод потребовал бы опроса эксперта для каждой из этих 2 048 комбинаций.
2. Иерархический подход.
Извлечение знаний из эксперта основано на оригинальном методе восстановления Булевых функций с использованием свойства монотонности [Kovalerchuk B., 1996]. Мы будем иллюстрировать метод на примере диагностической системы рака груди, но специфика задачи практически не будет сказываться на общности метода.
Если попросить эксперта оценить конкретный случай, представленный набором значений признаков, то типичный вопрос будет иметь следующий вид:
«Если признак 1 имеет значение V1, признак 2, имеет значение V2 ..., признак n имеет значение Vn, то соответствует ли упомянутый набор значений признаков случаю подозрительному к раку или нет? ».
Каждый набор признаков (V1, V2, ..., Vn) представляет возможный клинический случай.
Первая задача состоит в том, что бы свести все признаки к бинарным признакам, разбив их значения на два класса – связанных с подозрением на рак и нет.
Вторая задача состоит в том, что бы построить иерархию признаков, начиная с общих признаков и кончая менее общими признаками. Эта иерархия начинается с определения 11 медицинских первичных бинарных признаков.
Медик-эксперт обнаружил, что первичные 11 бинарных признаков w1, w2, w3, y1, y2, y3, y4, y5, x3, x4, x5 могут быть представлены иерархией с добавлением двух новых обобщенных признаков x1 и x2:
Уровень 1 (5 признаков) Уровень 2 (все 11 признаков)
x1 w1, w2, w3
x2
x3
x4
x5
Мы рассматриваем пять бинарных признаков x1, x2, x3, x4, и x5, на уровне 1.
Новый обобщенный признак: x1 – «Количество и объем кальцинозов» со значениями (0 – «доброкачественный» и 1 – «рак») обобщает признаки связанные с количеством и объемом кальцинозов: