Гипертекстовые интеллектуальные информационные системы

Автор работы: Пользователь скрыл имя, 19 Декабря 2012 в 22:57, курсовая работа

Описание работы

В данной курсовой работе рассматриваются гипертекстовые интеллектуальные информационные системы. В первой главе рассматривается общая информация о гипертекстовых системах. Во второй главе дается общее представление о языке HTML. В третьей главе описана возможность представления знаний на базе языка HTML.
Цель курсовой работы – изучить гипертекстовые интеллектуальные информационные системы, а так же способы представления знаний.

Содержание работы

Введение 4
Глава 1. Общая информация о гипертекстовых системах 5
Гипертекстовые системы 5
Что такое гипертекст 6
Что дает использование гипертекста 7
Глава 2. Язык HTML 10
Общее представление 10
Браузеры 11
Версии 12
Структура HTML-документа 14
Глава 3. Возможности представления знаний на базе языка HTML 16
HTML-документ в виде семантической сети 16
TextAnalyst 24
Принцип работы HTML-конвертора 28
Заключение 33
Источники информации 34

Файлы: 1 файл

КУРСОВАЯ РАБОТА.docx

— 226.56 Кб (Скачать файл)

-        ключевые  слова, относящиеся к данному  документу: Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот,  классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор (тег <META>);

-        все  меню организованы в виде таблиц (тег <TABLE>), в ячейках которых (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно перейти к другой интересующей информации. Например, можно получить информацию о продуктах данной компании, выбрав их название из левого меню.

-        текст  описания возможностей программы  TextAnalyst организован в виде списка (тег <li>).

Т.о. можно видеть, семантически значимые характеристики документа  могут быть разбросаны по разным частям документа или по разным документам. Это сильно затрудняет семантический анализ Интернет – документов.

Решение этой проблемы в  настоящее время связано с  использованием двух подходов. Первый подход предполагает, что семантическая  разметка документа выполняется  вручную его автором на основе специальных метатегов, а второй подход связан с автоматическим или полуавтоматическим преобразованием исходного текста в специальное семантическое представление. Целесообразно конвертировать HTML-тест в более удобную форму представления для дальнейшей обработки.

 

 

 

3.2 TextAnalyst

TextAnalyst 2.0 – персональная  система автоматического анализа  текста.

TextAnalyst разработан в качестве  инструмента для анализа содержания  текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

-   анализ содержания  текста с автоматическим формированием  семантической сети с гиперссылками - получение смыслового портрета текста в терминах основных понятий и их смысловых связей;

-   анализ содержания  текста с автоматическим формированием  тематического древа с гиперссылками - выявление семантической структуры текста в виде иерархии тем и подтем;

-   смысловой поиск  с учетом скрытых смысловых  связей слов запроса со словами  текста;

-   автоматическое реферирование  текста - формирование его смыслового  портрета в терминах наиболее  информативных фраз;

-   кластеризация информации - анализ распределения материала  текстов по тематическим классам;

-   автоматическая индексация  текста с преобразованием в  гипертекст;

-   ранжирование всех  видов информации о семантике  текста по «степени значимости»  с возможностью варьирования  детальности ее исследования;

-   автоматическое/автоматизированное  формирование полнотекстовой базы  знаний с гипертекстовой структурой  и возможностями ассоциативного  доступа к информации.

Рассмотрим на нашем примере  работу этой программы. После запуска TextAnalyst, необходимо открыть текстовый  файл, в котором расположен HTML-документ нашего примера. Программа выполняет  анализ предложенного текста и выдает результаты (см. рисунок)

Изучив предложенный текст, TextAnalyst формирует сеть наиболее значимых понятий, содержащихся в данном тексте. В такую включены те термины текста, которые несут основную смысловую нагрузку. Т.о. сеть позволяет отбросить несущественную информацию и представить содержание текста в сжатом виде. Каждое понятие, появляющееся множество раз в различных частях текста, в сети представлено единственным узлом. Различные формы слов для отображения в один узел сети представляются к общей грамматической форме.

Каждый элемент сети характеризуется  числовой оценкой – смысловым  весом. Связи между понятиями  также характеризуются весами. Значение смыслового веса (от 1 до 100) показывает, насколько важную роль играет понятие для смысла всего текста, т.е. как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало информации, относящейся к данному понятию. Второе число, стоящее перед смысловым весом, ближе к раскрытому узлу, представляет вес связи от понятия в вершине раскрытого списка к данному. Большое значение веса связи (близкое к 100) указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в то же время и второго понятия. Малое (близкое к 1) значение означает, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй.

По умолчанию на экране отображаются понятия с весом  не менее 5. Вид сети на экране можно  настраивать, изменяя количество отображаемых понятий и связей, а также способ их сортировки.

TextAnalyst предоставляет услугу  автоматического реферирования.  Формируемый реферат содержит  список наиболее информативных  предложений текста. Это позволяет быстро ознакомиться с содержанием текста. Подробность реферата можно настраивать, изменяя количество формирующих его предложений. Каждое предложение характеризуется относительной степенью значимости во всем тексте.

В нашем примере реферат  выглядит таким образом:

98  анализа содержания  текста с автоматическим формированием  семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;

98  </li>            <li>анализа содержания текста  с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;

Цифры показывают степень  значимости предложений в тексте. Значение веса, близкое к 100, означает, что данное предложение представляет важнейшую информацию, касающуюся главных понятий текста. Эти понятия в реферате выделяются цветом.

По умолчанию на экране отображаются предложения реферата с весами не менее 90.

Для рассматриваемого выше примераHTML-текста описания страницы Analyst.ru фрагменты семантической сети выглядят следующим образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.3 Принцип работы HTML-конвертора

Рассмотрим в качестве примера следующее подмножество HTML-языка, которое может быть задано следующими определениями:

HTML-text :: = <HTML> HEAD BODY </HTML>

HEAD :: = TITLE{HEAD}| META{HEAD}| LINK{HEAD}…

TITLE :: = <TITLE> строка </TITLE>

META :: = <META name="KEYWORDS" content="строка">

KEYWORDS :: = …

BODY :: = <BODY> HTML-BODY </BODY>

HTML-BODY :: = PARAGRAPH{HTML-BODY} | TABLE {HTML-BODY} | LIST{HTML-BODY} | ANCHOR{HTML-BODY} | …

PARAGRAPH :: = <P> текст </P>

TABLE :: = <TABLE> TABLE-CELLS </TABLE>

TABLE-CELLS :: = STROKA{TABLE-CELLS} | …

STROKA :: = <TR> CELL </TR>

CELL :: = <TD> текст </TD>

LIST :: = <UL> LIST-ATOM </UL>

LIST-ATOM :: = …

ANCHOR :: = <A HREF=LINK> TEXT </A>

TEXT :: = …

LINK: = …

Синтаксическая диаграмма, соответствующая этим правилам выглядит следующим образом:

С теоретической точки  зрения HTML – это простой язык программирования с контекстно-свободной грамматикой. Для анализа HTML-текстов можно использовать нисходящие распознаватели, реализуемые на базе метода рекурсивного спуска. Рассмотрим продукционно-фреймовый формализм представления знаний и разработку на его основе интеллектуальный HTML-конвертор.

Для начала необходимо задать регулярное отображение каждого  правила спецификации HTML-конструкций в соответствующий объект базы знаний на уровне фрейма-прототипа. Система таких прототипов даст нам описание языка, а множество фреймов-экземпляров – спецификацию конкретных и синтаксически правильных HTML-текстов. Основные правила такого отображения таковы:

-            каждому концепту из левой  части BNF-определения ставим в  соответствие имя фрейма-прототипа;

-            альтернативам из правой части  BNF-определения при этом должны  соответствовать имена слотов  этого фрейма;

-            для концептов-нетерминалов соответствующий  слот должен иметь тип frame;

-            для концептов-терминалов соответствующие  слоты будут, как правило, иметь тип numb или string;

-            рекурсия в BNF-определениях заменяется  итерацией, а соответствующие слоты становятся множественными.

После применения данных правил к BNF-определениям языка HTML получим  следующее множество фреймов-прототипов:

[html is_aprototype, if_added HTML();

     HEADframe, restr_by head;

     BODYframe, restr_by body ];

[head is_aprototype, if_added HEAD();

     BODY{frame}, restr_by one_of {title, meta, …}];

[title is_aprototype, if_added TITLE();

     BODYstring ];

[meta is_aprototype, if_added META();

     BODYstring ];

………………….

[body is_aprototype, if_added BODY();

    SENT{frame}, restr_by one_of {header, paragraph, table, …}];

[paragraph is_aprototype, if_added PARAGRAPH();

[LIST is_aprototype; ATOM{frame}, if_added LI() ];

     BODYframe, restr_by text];

[table is_aprototype; if_added TABLE();

     TAB{frame}, restr_by one_of {stroka,…};]

[stroka is_aprototype, if_added TR();

    CELLS{frame}, restr_by one_of{cell,…}];

[cell is_aprototype, if_added TD();];

……………………

[anchor is_aprototype;

     BODYframe, restr_by text];

……………………

[link is_aprototype;

       URLframe, restr_by one_of {http,ftp,…}];

       MAILframe, restr_by mail];

[url is_alink; without_slot MAIL];

[http is_aurl, if_added HTTP();

     SERVERstring;

     DIR{string};

     FILEstring];

[ftp is_aurl, if_added FTP();

     SERVERstring;

     DIR{string};

     FILEstring];

…………………………

В соответствии с приведенными фреймами-прототипами и синтаксическими диаграммами, можно специфицировать процедурную часть конвертора как систему демонов, присоединенных к фреймам или к их слотам.

Спецификация одного из таких  демонов представлена ниже на языке Java:

public class HTML extends FramePrototype {

     HEAD head=null;

     BODY body-null;

………….

     String keyword;

Public void HTML (String name) {

   Super (name);

   keyword=getToken();

   if (keyword.compareTo (“<HTML>”) = =0 {

       head = new HEAD (getNewName());

       body = new BODY (getNewName());

    };

keyword = getToken ();

if (keyword.compareTo (“</HTML>”)= =0) return;

}

…………………

Public void (String nam) {

    Super (name);

    Keword=getToken();

    If (keyword compareTo (“<BODY>”) = = 0 {

    paragraph = new PARAGRAPH (getNewName());

    header = new HEADER (getNewName());

    table = new TABLE (getNewName());

     };

keyword = getToken ();

if (keyword compareTo (“</BODY>”) = = 0) return;

}

…………………………..

}

По существу, такой демон  является конструктором класса HTML, а запуск конвертора осуществляется с помощью оператора создания нового объекта этого класса:

HTML currPage = new HTML (get_new_name());

При этом будут рекурсивно вызываться конструкторы других классов (на верхнем уровне это HEAD, BODY), что, в  конечном счете, приведет к построению множества фреймов-экземпляров, представляющих анализируемую HTML-страницу.

Получение полезной в дальнейшем базы знаний предполагает дальнейшую семантическую интерпретацию фреймового представления и построение в конечном счете семантической сети, отражающей смысл исходного Интернет – документа.

 

Заключение

HTML — это язык разметки гипертекстов (hypertext markup language). Все размещаемые файлы должны быть гипертекстами, записанными в формате HTML и имеющими идентификаторы вида <имя>.html.

Язык HTML — это язык разметки гипертекстов, хранящихся на Web-серверах и отображаемых браузерами на экранах ЭВМ. Язык HTML определяет правила описания гипертекстов и отображения их браузерами на экранах компьютеров.

На разработку языка гипертекстовой разметки существенное влияние оказали  два фактора: исследования в области  интерфейсов гипертекстовых систем и желание обеспечить простой и быстрый способ создания гипертекстовой базы данных, распределенной в сети.

Основные правила вложения элементов:

  • Элементы не должны пересекаться;
  • Блочные элементы могут содержать вложенные блочные и текстовые элементы;
  • Текстовые элементы могут содержать вложенные текстовые элементы;
  • Текстовые элементы не могут содержать вложенные блочные элементы.

Строго говоря, все правила языка HTML. можно рассматривать исключительно как «пожелания». Средство, используемое для отображения Web-документа, сделает все возможное, чтобы истолковать разметку наиболее разумным образом. Тем не менее, гарантию правильного воспроизведения документа дает только неукоснительное следование требованиям спецификации языка.

HTML – это простой язык программирования  с контекстно-свободной граматикой. Для анализа HTML-текстов можно  использовать нисходящие распознаватели, реализуемые на базе рекурсивного  спуска.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Источники информации

1. Баранов, Д.В. Современные  информационные технологии. / Д.В.  Баранов. - Томск: ИДО (ТУСУР), 2005. - 130 с.

2. Ваулина, Ч.Ю. Информатика:  толковый словарь / Ч.Ю. Ваулина. - М.: Изд-во Эксмо, 2005. - 480 с.

3. Когаловский, М.Р. Перспективные  технологии информационных систем / М.Р. Когаловский. - М.: Компания АйТи, 2003. - 288 с.

4. Когаловский, М.Р. Энциклопедия  технологий баз данных / М.Р. Когаловский. - М.: Финансы и статистика, 2005. - 800 с.

5. Крис, Д. Креативный Web-дизайн. HTML, XHTML, CSS, JavaScript, PHP, ASP, ActiveX. Текст, графика, звук и анимация. Учебник Пер с англ. / Д. Крис, К. Кинг, Э. Андерсон. - М.: ООО «ДиаСофтЮП», 2005. 672 с.

6. Мишенин, А.И. Теория  экономических информационных систем / А.И. Мишенин. - М.: Финансы и статистика, 2002. - 240 с.

7. Непейвода, Н.Н. Основания  программирования / Н.Н. Непейвода,  Скопин И.Н. - Москва-Ижевск: Институт  компьютерных исследований, 2003. - 868 с.

8. Основы Web - технологий : учеб. пособие / П.Б. Храмцов [и др.]. - М. : Изд-во Интуит.ру “Интернет-Университет  Информационных Технологий”, 2003. - 512 с.

9. Пауэл Томас, А. Справочник  программиста / Томас А Пауэл,  Д. Уитворт. - М.: АСТ, Мн.: Харвест, 2005. - 384 с.

10. Петров, В.Н. Информационные  системы: учеб. пособие / В.Н. Петров. - СПб.: Питер, 2002. - 588 с.

11. Экономическая информатика:  Введение в экономический анализ  информационных систем: учебник. - М.: ИНФРА-М, 2005. - 958 с. - (Учебники экономического факультета МГУ им. М.В. Ломоносова).

Информация о работе Гипертекстовые интеллектуальные информационные системы