Автор работы: Пользователь скрыл имя, 19 Декабря 2012 в 22:57, курсовая работа
В данной курсовой работе рассматриваются гипертекстовые интеллектуальные информационные системы. В первой главе рассматривается общая информация о гипертекстовых системах. Во второй главе дается общее представление о языке HTML. В третьей главе описана возможность представления знаний на базе языка HTML.
Цель курсовой работы – изучить гипертекстовые интеллектуальные информационные системы, а так же способы представления знаний.
Введение 4
Глава 1. Общая информация о гипертекстовых системах 5
Гипертекстовые системы 5
Что такое гипертекст 6
Что дает использование гипертекста 7
Глава 2. Язык HTML 10
Общее представление 10
Браузеры 11
Версии 12
Структура HTML-документа 14
Глава 3. Возможности представления знаний на базе языка HTML 16
HTML-документ в виде семантической сети 16
TextAnalyst 24
Принцип работы HTML-конвертора 28
Заключение 33
Источники информации 34
В версии HTML 4.0 произошла некоторая «очистка» стандарта. Многие элементы были отмечены как устаревшие и нерекомендованные (англ. deprecated). В частности, элемент font, используемый для изменения свойств шрифта, был помечен как устаревший (вместо него рекомендуется использовать таблицы стилей CSS).
В 1998 году консорциум Всемирной паутины начал работу над новым языком разметки, основанном на HTML 4, но соответствующим синтаксису XML. Впоследствии новый язык получил название XHTML. Первая версия XHTML 1.0 одобрена в качестве Рекомендации консорциума Всемирной паутины 26 января 2000 года.
Планируемая версия XHTML 2.0 должна была разорвать совместимость со старыми версиями HTML и XHTML, но 2 июля 2009 года консорциум Всемирной паутины объявил, что полномочия рабочей группы XHTML2 истекают в конце 2009 года. Таким образом, была приостановлена вся дальнейшая разработка стандарта XHTML 2.0.
HTML — теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками — тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки <br>). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге. Вот примеры фрагментов HTML-документа:
Регистр, в котором набрано имя элемента и имена атрибутов, в HTML значения не имеет (в отличие от XHTML). Элементы могут быть вложенными. Например, следующий код:
<b>
Этот текст будет полужирным,
<i>а этот - ещё и курсивным</i>
</b>
даст такой результат:
Этот текст будет полужирным, а этот — ещё и курсивным
Кроме элементов, в HTML-документах
есть и сущности (англ. entities) —
Например, © — знак авторского права (©). Как правило, сущности используются для представления символов, отсутствующих в кодировке документа, или же для представления «специальных» символов: & — амперсанда (&), < — символа «меньше» (<) и > — символа «больше» (>), которые некорректно записывать «обычным» образом, из-за их особого значения в HTML.
Каждый HTML-документ, отвечающий спецификации HTML какой-либо версии, должен начинаться со строки объявления версии HTML <!DOCTYPE…>, которая обычно выглядит примерно так:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/
Если эта строка не указана, то добиться корректного отображения документа в браузере становится труднее.
Далее обозначается начало
и конец документа тегами <
Глава 3. ВОЗМОЖНОСТИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ НА БАЗЕ ЯЗЫКА HTML
3.1 HTML-документ в виде семантической сети
Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи.
Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание.
Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами.
Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name.
Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра.
Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.
Но в целом, выделение
значимых для семантической
Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.
Фрагмент соответствующего HTML – текста представлен ниже:
<html>
<head>
------------------------------
<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.
<title>Microsystems, Ltd</title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
------------------------------
<body topmargin="0" leftmargin="0">
<table border="0" cellspacing="0" cellpadding="0">
<tr>
<td valign="top" width="239"><a
href="/index.php?lang=eng"><
border="0" src="/images/top_logo.gif"></
<td valign="top" align="left">
<table border="0" cellspacing="0" cellpadding="0">
<tr><td width="100%"><img border="0" src="/images/top_up.gif">
</td></tr>
<tr> <td width="100%">
<table border="0" cellspacing="0" cellpadding="0" width="100%"
bgcolor="#001395" height="23">
<tr><td width="100%">
------------------------------
</table>
</td></tr>
</table>
<!-- end menu -->
------------------------------
<!-- start menu here -->
<table border="0" cellspacing="0" cellpadding="0" width="100%">
<tr> <td width="241" valign="top" align="left">
<table border="0" width="100%" cellspacing="0" cellpadding="0">
<tr><td width="100%">
<p> </p>
<p align="center">
<img border="0" src="/images/10thyear_s.gif" width="210" height="52">
</p>
</td></tr>
<tr><td width="100%" valign="top" align="left">
<!-- left menu-->
<table border="0" width="218">
<tr><td width="210" bgcolor="#DDDDDD" valign="top" align="left">
<p align="right"><b>Products</b><
</tr>
<tr onmouseout="this.style.
onmouseover="this.style.
<td width="210" align="right">
<a href="/index.php?lang=eng&dir=
content/products/menu.txt
<span style="color: #000000; text-decoration: none">
TextAnalyst SDK</span></a>
</td></tr>
<tr><td width="210" align="right">
<p align="right"><img border="0" src="/images/bd14580_.gif" width="12"
height="12">
TextAnalyst</p>
</td></tr>
<tr onmouseout="this.style.
onmouseover="this.style.
<td width="210" align="right">
<a href="/index.php?lang=eng&dir=
tref&left=content/products/
" target="_self">
<span style="color: #000000; text-decoration: none">
Text Referent</span></a>
</td></tr>
<!-- end left menu-->
------------------------------
</table>
<!-- end here -->
</td>
<!-- free space -->
<td valign="top" align="left">
</td>
<!-- end free space -->
<td valign="top" align="left" width=100% >
<!-- content started here -->
<table border="0" cellspacing="6" cellpadding="0">
<tr> <td width="100%" valign="top" align="left">
<head>
<meta name="DESCRIPTION" content="TextAnalyst - personal text mining system">
<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">
<title>TextAnalyst</title>
</head>
<div align="left">
<table border="0" align="left" cellspacing="4" cellpadding="3">
<tr> <td valign="top" align="center" width="250">
<p align="center"> </p>
<p
align="center"><a href="cgi-bin/stat/loadfile.
<img
border="0" src="images/downloads.gif"></
<p align="center">Получите бесплатную версию
TextAnalyst</p>
<table border="0">
<tr><td width="100%" bgcolor="#008000">
<p align="center" class="menu">
<font color="#FFFFFF">Системные требования</font></td> </tr>
<tr><td width="100%">Intel-based PC</td> </tr>
<tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>
<tr> <td width="100%" bgcolor="#C0C0C0">
<p align="center" class="menu">
<font color="#FFFFFF">Технические характеристики</font></td>/tr>
<tr><td width="100%" valign="top" align="left">
<ul>
<li> Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li>
<li>Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>
<li>Собственный объем TextAnalyst не превышает 5Мб.</li>
<li>Форматы обрабатываемых файлов:</li>
<li>*.txt (ANSI, DOS), *.rtf</li>
<li>Экспорт информации в форматы: *.txt,
*.csw (электронные таблицы).</li>
</ul> </td></tr>
</table>
------------------------------
<h1 align="center">
<img border="0"
src="../../images/octopus_
<p align="center"><b>персональная система автоматического анализа текста </b></p>
<p>TextAnalyst
разработан в качестве
<ul>
<li>анализа содержания текста
с автоматическим
<li>анализа содержания текста
с автоматическим
<li>смыслового поиска с
<li>автоматического
<li>кластеризации информации - анализа
распределения материала
<li>автоматической индексации текста с преобразованием в гипертекст; </li>
<li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования; </li>
<li>автоматического/
</ul>
<p
align="center"><b>Не
<p
align="center"><i>Работа с
</i></p></td> </tr>
</table></div></td> </tr>
</table>
------------------------------
</body>
</html>
Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются:
Информация о работе Гипертекстовые интеллектуальные информационные системы