Гипертекстовые интеллектуальные информационные системы

Автор работы: Пользователь скрыл имя, 19 Декабря 2012 в 22:57, курсовая работа

Описание работы

В данной курсовой работе рассматриваются гипертекстовые интеллектуальные информационные системы. В первой главе рассматривается общая информация о гипертекстовых системах. Во второй главе дается общее представление о языке HTML. В третьей главе описана возможность представления знаний на базе языка HTML.
Цель курсовой работы – изучить гипертекстовые интеллектуальные информационные системы, а так же способы представления знаний.

Содержание работы

Введение 4
Глава 1. Общая информация о гипертекстовых системах 5
Гипертекстовые системы 5
Что такое гипертекст 6
Что дает использование гипертекста 7
Глава 2. Язык HTML 10
Общее представление 10
Браузеры 11
Версии 12
Структура HTML-документа 14
Глава 3. Возможности представления знаний на базе языка HTML 16
HTML-документ в виде семантической сети 16
TextAnalyst 24
Принцип работы HTML-конвертора 28
Заключение 33
Источники информации 34

Файлы: 1 файл

КУРСОВАЯ РАБОТА.docx

— 226.56 Кб (Скачать файл)

В версии HTML 4.0 произошла  некоторая «очистка» стандарта. Многие элементы были отмечены как  устаревшие и нерекомендованные (англ. deprecated). В частности, элемент font, используемый для изменения свойств шрифта, был помечен как устаревший (вместо него рекомендуется использовать таблицы стилей CSS).

В 1998 году консорциум Всемирной паутины начал работу над новым языком разметки, основанном на HTML 4, но соответствующим синтаксису XML. Впоследствии новый язык получил название XHTML. Первая версия XHTML 1.0 одобрена в качестве Рекомендации консорциума Всемирной паутины 26 января 2000 года.

Планируемая версия XHTML 2.0 должна была разорвать совместимость со старыми версиями HTML и XHTML, но 2 июля 2009 года консорциум Всемирной паутины объявил, что полномочия рабочей группы XHTML2 истекают в конце 2009 года. Таким образом, была приостановлена вся дальнейшая разработка стандарта XHTML 2.0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

    1. Структура HTML-документа

HTML — теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причём начало и конец каждого элемента обозначается специальными пометками — тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки <br>). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге. Вот примеры фрагментов HTML-документа:

  • <strong>Текст между двумя тегами — открывающим и закрывающим.</strong>
  • <a href="http://www.example.com">Здесь элемент содержит атрибут href.</a>
  • А вот пример пустого элемента: <br>

Регистр, в котором набрано  имя элемента и имена атрибутов, в HTML значения не имеет (в отличие  от XHTML). Элементы могут быть вложенными. Например, следующий код:

<b>

  Этот текст будет  полужирным,

  <i>а этот - ещё и курсивным</i>

</b>

даст такой результат:

Этот текст  будет полужирным, а этот — ещё и курсивным

Кроме элементов, в HTML-документах есть и сущности (англ. entities) — «специальные символы». Сущности начинаются с символа амперсанда и имеют вид &имя; или &#NNNN;, гдеNNNN — код символа в Юникоде в десятичной системе счисления.

Например, &copy; — знак авторского права (©). Как правило, сущности используются для представления символов, отсутствующих в кодировке документа, или же для представления «специальных» символов: &amp; — амперсанда (&), &lt; — символа «меньше» (<) и &gt; — символа «больше» (>), которые некорректно записывать «обычным» образом, из-за их особого значения в HTML.

Каждый HTML-документ, отвечающий спецификации HTML какой-либо версии, должен начинаться со строки объявления версии HTML <!DOCTYPE…>, которая обычно выглядит примерно так:

 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"

     "http://www.w3.org/TR/html4/strict.dtd">

Если эта строка не указана, то добиться корректного отображения  документа в браузере становится труднее.

Далее обозначается начало и конец документа тегами <html> и </html> соответственно. Внутри этих тегов должны находиться теги заголовка (<head></head>) и тела (<body></body>) документа.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Глава 3. ВОЗМОЖНОСТИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ НА БАЗЕ ЯЗЫКА HTML

3.1 HTML-документ в виде семантической сети

Рассмотрим, каким образом HTML-документ может быть представлен  в виде семантической сети. Нам  необходимо выделить те конструкции  языка, которые могут быть полезными  для решения этой задачи.

Прежде всего, к числу  таких конструкций относятся  теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики  всего HTML – документа, так как  текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание.

Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами.

Теги типа <META…> явно вводят семантику значений атрибутов, одинаково  интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name.

Теги типа <A…> фиксируют  лишь факт наличия отношения между  ссылкой и ее якорем. В некоторых  случаях этому отношению можно  «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра.

Другими полезными конструкциями  являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.

Но в целом, выделение  значимых для семантической интерпретации  конструкций является экспертной задачей, решаемой каждый раз автором соответствующей  Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска.

Рассмотрим в качестве примера страницу официального сайта  компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.

Фрагмент соответствующего HTML – текста представлен ниже:

<html>

<head>

---------------------------------

<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор">

<meta name="GENERATOR" content="Microsoft FrontPage 4.0">

<meta name="ProgId" content="FrontPage.Editor.Document">

<title>Microsystems, Ltd</title>

<link rel="stylesheet" type="text/css" href="style.css">

</head>

-----------------------------------------------

<body topmargin="0" leftmargin="0">

<table border="0" cellspacing="0" cellpadding="0">

    <tr>

   <td valign="top" width="239"><a href="/index.php?lang=eng"><img

border="0" src="/images/top_logo.gif"></a></td>

   <td valign="top" align="left">

     <table border="0" cellspacing="0" cellpadding="0">

              <tr><td width="100%"><img border="0" src="/images/top_up.gif">

              </td></tr>

              <tr> <td width="100%">

   <table border="0"  cellspacing="0" cellpadding="0" width="100%"

bgcolor="#001395" height="23">

                  <tr><td width="100%">

-------------------------------------

                      </table>

                      </td></tr>

                    </table>

                            <!-- end menu -->

----------------------------------------------

        <!-- start menu here -->

             <table border="0" cellspacing="0" cellpadding="0" width="100%">

        <tr> <td width="241" valign="top" align="left">

       <table border="0" width="100%" cellspacing="0" cellpadding="0">

              <tr><td width="100%">

             <p>&nbsp;</p>

        <p align="center">               

  <img border="0" src="/images/10thyear_s.gif" width="210" height="52">

         </p>

                </td></tr>

              <tr><td width="100%" valign="top" align="left">

                <!-- left menu-->

         <table border="0" width="218">

        <tr><td width="210" bgcolor="#DDDDDD" valign="top" align="left">

                      <p align="right"><b>Products</b></td>

                  </tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

                              <td width="210" align="right">

  <a href="/index.php?lang=eng&dir=content/products/&id=body&left=

content/products/menu.txt        " target="_self">

  <span style="color: #000000; text-decoration: none">

            TextAnalyst SDK</span></a>

     </td></tr>

<tr><td width="210" align="right">

<p align="right"><img border="0" src="/images/bd14580_.gif" width="12"

height="12">

TextAnalyst</p>

</td></tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

<td width="210" align="right">

<a href="/index.php?lang=eng&dir=content/products/&id=

tref&left=content/products/menu.txt

" target="_self">

<span style="color: #000000; text-decoration: none">

Text Referent</span></a>

</td></tr>

<!-- end left menu-->

----------------------------------------

            </table>

  <!-- end here -->

                     </td>

                     <!-- free space -->

                     <td valign="top" align="left">

                     &nbsp;&nbsp;&nbsp;&nbsp;

                     </td>

                     <!-- end free space -->

                              

          <td valign="top" align="left" width=100% >

          <!-- content started here -->

           <table border="0" cellspacing="6" cellpadding="0">

           <tr> <td width="100%" valign="top" align="left">

<head>

<meta name="DESCRIPTION" content="TextAnalyst - personal text mining system">

<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">

<title>TextAnalyst</title>

</head>

<div align="left">

  <table border="0" align="left" cellspacing="4" cellpadding="3">

    <tr> <td valign="top" align="center" width="250">

        <p align="center">&nbsp;</p>

        <p align="center"><a href="cgi-bin/stat/loadfile.pl?file=ta_rus">

        <img border="0" src="images/downloads.gif"></a></p>

        <p align="center">Получите бесплатную версию

        TextAnalyst</p>

        <table border="0">

          <tr><td width="100%" bgcolor="#008000">

              <p align="center" class="menu">

              <font color="#FFFFFF">Системные требования</font></td> </tr>

          <tr><td width="100%">Intel-based PC</td> </tr>

          <tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>

          <tr> <td width="100%" bgcolor="#C0C0C0">

              <p align="center" class="menu">

       <font color="#FFFFFF">Технические характеристики</font></td>/tr>

          <tr><td width="100%" valign="top" align="left">

              <ul>

    <li>&nbsp;Средняя  скорость анализа текста около  1Мбайт/мин (при использовании Pentium-II).</li>

    <li>Максимальный  объем анализируемой подборки  не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>

     <li>Собственный  объем TextAnalyst не превышает 5Мб.</li>

     <li>Форматы  обрабатываемых файлов:</li>

     <li>*.txt (ANSI, DOS), *.rtf</li>

     <li>Экспорт информации  в форматы: *.txt,

       *.csw (электронные  таблицы).</li>

              </ul> </td></tr>

        </table>

-----------------------------------

      <h1 align="center">

      <img border="0" src="../../images/octopus_shaden.gif" align="left" width="99" height="112">TextAnalyst 2.0&nbsp;</h1>

        <p align="center"><b>персональная система автоматического анализа текста&nbsp;</b></p>

        <p>TextAnalyst разработан в качестве инструмента  для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:&nbsp;</p>

        <ul>

          <li>анализа содержания текста  с автоматическим формированием  семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;&nbsp;</li>

          <li>анализа содержания текста  с автоматическим формированием  тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;&nbsp;</li>

          <li>смыслового поиска с учетом  скрытых смысловых связей слов  запроса со словами текста;&nbsp;</li>

          <li>автоматического реферирования  текста - формирования его смыслового портрета в терминах наиболее информативных фраз;&nbsp;</li>

          <li>кластеризации информации - анализа  распределения материала текстов  по тематическим классам;</li>

          <li>автоматической индексации  текста с преобразованием в  гипертекст;&nbsp;</li>

          <li>ранжирования всех видов  информации о семантике текста  по «степени значимости» с возможностью варьирования детальности ее исследования;&nbsp;</li>

          <li>автоматического/автоматизированного  формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации;&nbsp;</li>

        </ul>

        <p align="center"><b>Не пугайтесь  обилия возможностей!</b></p>

        <p align="center"><i>Работа с TextAnalyst покажется Вам неожиданно простой  и приятной, а его аналитические  способности сэкономят массу  полезного времени...

        </i></p></td> </tr>

  </table></div></td> </tr>

            </table>

----------------------------------

</body>

</html>

Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются:

Информация о работе Гипертекстовые интеллектуальные информационные системы