Автор работы: Пользователь скрыл имя, 24 Июня 2015 в 15:18, контрольная работа
Эволюция информационных технологий и систем все в большей степени определяется их интеллектуализацией. Интеллектуальные информационные системы и технологии – одна из наиболее перспективных и быстро развивающихся научных и прикладных областей информатики. Она оказывает существенное влияние на все научные и технологические направления, связанные с использованием компьютеров, и уже сегодня дает обществу то, что оно ждет от науки практически значимые результаты, многие из которых способствуют кардинальным изменениям в сферах их применения. Целями интеллектуальных информационных технологий являются, во-первых, расширение круга задач, решаемых с помощью компьютеров, особенно в слабоструктурированных предметных областях, и, во-вторых, повышение уровня интеллектуальной информационной поддержки современного специалиста.
Введение
Способы и средства разметки текста документов.
Способы и программные средства поиска информации в Интернете.
Характеристики искусственного интеллекта (ИИ). Виды моделей знаний. Семантические базы знаний.
Список литературы
Введение
Способы и средства разметки текста документов
Язык разметки документов - это набор
специальных инструкций, называемых тэгами,
предназначенных для формирования в документах
какой-либо структуры и определения отношений
между различными элементами этой структуры.
Различают логическую и визуальную разметки.
В первом случае речь идет только о том,
какую роль играет данный участок документа
в его общей структуре (например, «данная
строка является заголовком»). Во втором
определяется, как именно будет отображаться
этот элемент (например, «данную строку
следует отображать жирным шрифтом»).
Идея языков разметки состоит в том, что
визуальное отображение документа должно
автоматически получаться из логической
разметки и не зависеть от его непосредственного
содержания. Это упрощает автоматическую
обработку документа и его отображение
в различных условиях (например, один и
тот же файл может по-разному отображаться
на экране компьютера, мобильного телефона
и на печати, поскольку свойства этих устройств
вывода существенно различаются). Однако
это правило часто нарушается: например,
создавая документ в редакторе наподобие MS Word, пользователь может выделять заголовки
жирным шрифтом, но нигде не указывать,
что эта строка является заголовком.
HTML – язык разметки документов с помощью
специальных конструкций, называемых
тегами. Эти конструкции берутся в угловые
скобки. Различают теги «открытия», которые
задаются ключевыми словами и допустимыми
параметрами, и теги «закрытия» – ключевые
слова с символом «/». Общая структура
HTML-документа может быть представлена
следующим форматом:
<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”
“http://www.w3.org/TR/REC-
<HTML>
<HEAD>
<TITLE>Наименование документа</TITLE>
<META name=keywords content=”Представление знаний,
Мультиагентные системы”>
</HEAD>
<BODY>
Собственно текст документа
</BODY>
<./HTML>
Комментарий <!DOCTYPE…> фиксирует текущее состояние спецификации версии языка HTML. Кроме того, в HTML-документе выделяются две основные структурные единицы – «голова» документа (между тегами <HEAD> и </HEAD>) и его «тело» (между тегами <BODY> и </BODY>).
Один из элементов головы документа – это заголовок – произвольный текст между тегами <TITLE> и </TITLE>. Не менее, а может быть и более важным элементом головы документа является тег <META name=keywords content=”Представление знаний, Мультиагентные системы”>. В приведенном примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова ”Представление знаний’ и “Мультиагентные системы”. Эти и некоторые другие теги типа <META…> ориентированы на аннотирование Интернет-документов и, кроме того, существенно облегчают задачу индексирования их, например, с помощью сетевых роботов.
Собственно содержание документа находится в теле. Как правило, оно состоит из последовательности структурных единиц, базисными среди которых являются заголовки разного уровня (текст, заключенный между тегами <Hi> и <./Hi>) и параграфы – текст между тегами <P> и <./P>. По существу, это минимальные средства форматирования Интернет-документов. В HTML эти средства значительно богаче (выравнивание, табуляция, списки различных типов и т.д.).
Наиболее важными базовыми конструкциями языка HTML являются якоря. Синтаксически эти конструкции представлены тегами <А> и <./А> с атрибутами NAME и HREF. Пример: <A NAME=”Метка”>текст<./А> (обеспечивает в пределах документа уникальное имя начала фрагмента). При этом текст, заключенный между тегами <А> и <./А>, как правило, задает семантически значимое наименование заголовка.
Для ссылок на помеченные таким
образом части Интернет-документа используют
конструкции <A HREF =”#Метка”>текст<./А> или <A HREF =”URL”>текст<./А>. Первая из них задает локальную
ссылку на часть документа, начинающуюся
с указанной метки. Вторая – глобальную
ссылку на документ в сети, однозначно
идентифицируемый с помощью URL. По существу,
URL – это Интернет-адрес: имя домена, уточненное
названием протокола, собственное имя
документа, включая путь к нему в пределах
данного домена. Пример URL: http://www.anywhere.ru/
Использование в Интернет-публикациях ссылок позволяет организовать логическое структурирование информации и обеспечивает удобную и единообразную навигацию как в пределах одного документа, так и в целом по множеству документов, если они связаны между собой.
Важными конструкциями HTML являются таблицы с возможностями задания многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с пользователями Интернет-документов. Пример:
<TABLE>
<TR>
<TD> Столбец-1, строка-1 </TD>
<TD> Столбец-1, строка-2 </TD>
</TR>
</TABLE>
<FORM METHOD=”POST” …>
<P>
Можно ввести в поле одну строку:
<INPYT NAME=”entry”>
</P>
<P>
Для обработки результатов ввода:
<INPUT TYPE=”submit” VALUE=”Принять запрос”>
</P>
</FORM>
На уровне форм HTML имеются возможности ввода информации в просматриваемый документ и ее обработки с помощью специальных программ, выполняемых на сервере или на клиент-терминале.
Другой важной HTML - конструкцией являются кадры (рамки или фреймы). С их помощью можно разделить документ на части и представить их в отдельных неперекрывающихся областях экрана.
Для семантической разметки Интернет-документов прежде всего пригодны теги типа <TITLE>, <META…> и <A>. Первый важен для фиксации семантики всего HTML-документа, так как текст, заключенный между тегами <TITLE> и </TITLE>, чаще всего отражает его назначение и содержание. Теги типа <META…> вводят имена атрибутов, а ссылки и якоря фиксируют отношения между частями документа или документами. Теги <A> фиксируют факт наличия отношения между ссылкой и ее якорем.
Язык HTML имеет ряд недостаков, к которым в первую очередь относятся нерасширяемость и ограниченные средства спецификации семантической структуры документов.
Некоторые недостатки HTML сняты в языке XML. Отличительными свойствами XML являются стандарт на определение синтаксиса и единообразные средства введения в языки разметки новых тегов. Это позволяет конструировать новые языки маркировки Web-документов и обеспечивает возможность различным приложениям и программным агентам понимать и обрабатывать XML-документы.
Каждый XML-документ обладает определенной логикой и физической структурой. Физически это композиция элементов, называемых единицами, которые могут быть связаны взаимными ссылками. Логически документ состоит из деклараций, единиц, комментариев, собственно текстов и инструкций обработки, причем каждая конструкция XML маркируется специальными тегами явным образом. Все теги XML – парные, а конструкции могут быть вложены друг в друга, образуя правильно построенное дерево. Так, например, конструкция <item Attribute 1=”Value 1”></item> определяет единицу с именем item и списком пар атрибут-значение, который в нашем случае представлен единственным атрибутом с именем Attribute 1, имеющим значение ”Value 1”.
Пример XML-документа, описывающего домашнюю страницу исследователя Иванова:
<?xml version=”1.0”?>
<Homepage>
<Name>Домашняя страница Иванова</Name>
<Person>
<firstName>Ivan</firstName >
<lastName>Ivanov</lastName >
<marriedTo Homepage=”http://www.anywhere.
Mariya Ivanova</marriedTo>
<employee Homepage=”http://www.ccas.ru”>
CCAS of Russia</employee>
<publications>
<book title=”First Book”/>
<book title=”Second Book”/>
……………………………..
</publications>
</Person>
</Homepage>
Этот XML-документ пока не имеет «смысла», так как из него не следует, как интерпретируются единицы типа Person, publications, book и т. п. Для решения этого вопроса используется специальная спецификация определения типа документа DTD (document type definition). По сути дела, это грамматика языка разметки, в рамках которой определяются, какие элементы могут присутствовать в документе, какие атрибуты они имеют и как элементы соотносятся друг с другом. Такие спецификации тоже входят в стандарт XML .
Способы и программные средства поиска информации в Интернете
Для получения информации
в среде Интернета создаются специальные
поисковые системы. Как правило, они общедоступны
и обслуживают пользователей в любой точке
планеты, где имеется возможность работы
с Интернетом. Непосредственно для поиска
используются поисковые машины, число
которых в мире исчисляется несколькими
сотнями. Они ориентируются на определенные
типы запросов или их сочетание (библиографический,
адресный, фактографический, тематический
и др.). Кроме того, бывают полнотекстовые,
смешанные и другие поисковые машины.
Для проведения
поиска в Интернете (в WWW) функционирует
множество сайтов и поисковых систем,
поэтому необходимо не только ориентироваться
в таких системах, но и уметь осуществлять
в них эффективный поиск, то есть использовать
соответствующие технологии.
Поисковые системы
характеризуются также временем выполнения
поиска, интерфейсом, предоставляемым
пользователю и видом отображаемых результатов.
При выборе поисковых систем обращают
внимание на такие их параметры, как охват
и глубина. Под охватом понимается объём базы поисковой машины,
измеряемый тремя показателями: общим
объёмом проиндексированной информации,
количеством уникальных серверов и количеством
уникальных документов. Под глубиной понимается
- существует ли ограничение на количество
страниц или на глубину вложенности директорий
на одном сервере.
Каждая поисковая
машина имеет свои алгоритмы сортировки
результатов поиска. Чем ближе к началу
списка, полученного в результате проведения
поиска, оказывается нужный документ,
тем выше релевантность и лучше работает
поисковая машина.
Поисковые машины
используют общие принципы работы, ориентированные
на выполнение двух основных функций.
Первая
функция реализуется программой-роботом, автоматически
просматривающей различные сервера в
Интернете. Находя новые или изменившиеся
документы, она осуществляет их индексацию
и передаёт на базовый компьютер поисковой
машины. "Робот" - автоматизированный
браузер, загружающий веб-страницу, изучающий
её и, при необходимости, переходящим к
одной из её гиперсвязей. Когда ему попадается
страница, не содержащая связей, робот
возвращается на одну-две ступени назад
и переходит по адресу, указанному в одной
из обнаруженных ранее связей. Запущенный
робот проходит огромные расстояния в
среде Интернета (киберпространстве),
ориентируясь на развитие веб-сети и изменяя
в соответствии с этим свои маршруты. Индексирующие
роботы обрабатывают лишь HTML-файлы, игнорируя
изображения и другие мультимедийные
файлы. Они могут: обнаруживать связи с
уже несуществующими страницами; устанавливать
связь с наиболее популярными узлами,
подсчитывая количество ссылок на них
в других веб-страницах; регистрировать
веб-страницы для оценки роста системы
и др. Чаще всего роботы просматривают
сервера самостоятельно, находя новые
внешние ссылки в уже обследованных документах.
Вторая функция заключается в обработке выявленных
документов. При этом учитывается все
содержание страниц (не только полный
текст, но и наличие иллюстраций, аудио
и видео файлов, Java-приложений). Индексации
подвергаются все слова в документе, что
дает возможность использовать поисковые
системы для детального поиска по самой
узкой тематике. Образуемые гигантские
индексные файлы, хранящие информацию
о том, какое слово, сколько раз, в каком
документе и на каком сервере употребляется,
составляют БД, к которой собственно и
обращаются пользователи, вводя в поисковую
строку ПОЗ (сочетания ключевых слов).
Выдача результатов осуществляется с
помощью специальной подсистемы, производящей
интеллектуальное ранжирование результатов.
В своих расчетах она опирается на местоположение
термина, частоту его повторения в тексте,
процентное соотношение данного термина
с остальным текстом на данной странице
и другие параметры, характеризующие возможности
конкретной поисковой машины.
"Роботы" имеют
ряд разновидностей, одной из которых
является "паук" (англ. "spider").
Он непрерывно "ползает по сети",
переходя с одной веб-страницы к другой
с целью сбора статистических данных о
самой "паутине" (Web) и (или) формирования
некоторой БД с индексами содержимого
веб.
Автоматизированные
агенты "спайдеры" регулярно
сканируют веб-страницы и актуализируют
БД адресов (гиперссылки), средства индексирования
информации, расположенные по указанным
адресам. Полученные индексы используются
для быстрого и эффективного поиска по
набору терминов, задаваемых пользователем.
В разных системах
эта цель достигается различным образом.
Одни посылают "агентов" на каждую
попадающуюся веб-страницу, индексируя
все встречающиеся слова. Другие сначала
анализируют БД адресов, определяя наиболее
популярные (обычно подсчитывается число
имеющихся ссылок на них). Именно эти веб-страницы
в различной степени индексируются (только
заголовки веб-страниц и ссылки, включая
автоматическое аннотирование документов
или весь текст).
Информация о работе Контрольная работа по "Интеллектуальные информационные системы"