Общая характеристика информационных технологий

Автор работы: Пользователь скрыл имя, 29 Марта 2013 в 22:10, лекция

Описание работы

Понятие информационная технология (ИТ) возникло в последние десятилетия ХХв. Особенностью ИТ является то, что в ней и предметом и продуктом труда является информация, а орудиями труда – средствами вычислительной техники и связи.
ИТ направлены на увеличение степени автоматизации всех информационных операций и, следовательно, ускорения научно-технического прогресса общества.

Файлы: 1 файл

Характеристика информационных технологий Понятие информационной .doc

— 458.00 Кб (Скачать файл)

Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет — по семантическому принципу, отражающему специфику предметной области.

Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

 

5.3. Дескрипторные информационно-поисковые языки

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

♦   словарь лексических единиц;

♦ правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;

♦  правила построения ИПЯ.

Словари лексических единиц делятся на две группы:

♦ основные лексические словари, составляющие лексику ИПЯ;

♦ морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

Наиболее важными парадигматическими отношениями ИПТ являются:

♦ соподчинение;

♦ род—вид;

♦ часть—целое;

♦ причина—следствие;

♦ функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию..

Словарная часть — алфавитный список дескрипторов с их словарными статьями.

Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов.

Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.

 

5.4. Системы индексирования

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

• ручного индексирования;

• автоматического индексирования;

• автоматизированного индексирования.

2. По степени контролируемости различают системы:

• без словаря;

• с жестким словарем;

• со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

• с последовательным просмотром текста (отбираются все полнозначные слова);

• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

• без лексикографического контроля;

• с полным контролем;

• с промежуточным контролем.

Лексикографический контроль предусматривает:

♦ устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

♦ нормализацию слов на основе морфологических нормативных

словарей.

5. По характеру морфологического анализа слов различают системы:

    • с использованием морфологических словарей;

♦ с использованием основных лексических словарей;

♦ с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

 

5.5. Полнотекстовые информационно - поисковые системы

Полнотекстовые ИС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

♦ хранилище документов;

♦ глобальный словарь системы;

♦ инвертированный индекс документов;

♦ интерфейс ввода документов в систему;

♦ механизм индексирования;

♦ интерфейс запросов пользователя;

♦ механизм поиска документов;

♦ механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

Глобальный словарь системы может быть статическим и динамическим.

Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном Документе слова с соответствующим номером из глобального словаря.

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствует поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.

Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных систем.

1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым актам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.

2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).

3. Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно - правовых документов, с учетом вносимых поправок и изменений.

4. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов.

Основными особенностями АИСЗ являются:

    • необходимость предоставления адресного доступа к полным текстам;

♦ в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);

    • тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются не только классификационные индексы, ключевые слова или дескрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др.

 

 

Лекция 6. Компьютерные сети

6.1. Системы телеобработки данных

Исторически первыми системами распределенной обработки данных были системы телеобработки данных и многомашинные вычислительные комплексы.

Системы телеобработки данных — представляют собой информационно-вычислительные системы, которые выполняют дистанционную централизованную обработку данных, поступающих в центр обработки по каналам связи.

Многомашинные вычислительные комплексы — это системы, состоящие из нескольких относительно самостоятельных компьютеров, связанных между собой устройствами обмена информацией, в частности каналами связи.

Техническое обеспечение систем телеобработки — это совокупность технических средств, основными задачами которой являются: ввод данных в систему передачи данных по каналам связи, сопряжение каналов связи с компьютером, обработка данных и выдача результатных Данных абоненту.

Наряду с техническим обеспечением, для осуществления режима телеобработки на компьютере должно быть установлено специализированное программное обеспечение, выполняющее функции: обеспечения работы компьютера в различных режимах телеобработки, Управления сетью телеобработки данных, управления очередями сообщений, редактирования сообщений, обработки ошибочных сообщений и т. п.

Информация о работе Общая характеристика информационных технологий