Базы данных и лингвистические информационные ресурсы

Автор работы: Пользователь скрыл имя, 16 Июня 2014 в 14:53, курсовая работа

Описание работы

Цель настоящей работы – провести обзор исследований в области баз данных и информационных ресурсов рассмотреть возможности их использования.
Задачи:
Рассмотреть лингвистику как объект информационного отражения, определив те ее черты, которые обуславливают особенности и состав информационных ресурсов в этой области.
Изучить историю развития БД выделить и охарактеризовать основные возможности, функции и преимущества.

Скачать архив (23.76 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Базы данных и лингвистические информационные ресурсы.docx

— 23.98 Кб (Скачать файл)

2.2 Классификация

В зависимости от архитектуры построения системы управления базами СУБД могут подразделяться на следующие типы:

1.Иерархические

2.Многомерные

3.Реляционные

4.Сетевые

5.Объектно-ориентированные

6.Объектно-реляционные

2.3 Файловые системы

Представим себе, что имеется некоторый носитель информации определенной емкости, устройство для чтения-записи на этот носитель в режиме произвольного доступа и прикладные программы, которые используют конкретный носитель для ввода-вывода информации во внешнюю память. В этом случае, каждая прикладная программа должна знать где и в каком месте хранятся необходимые данные. Так как прикладных программ больше, чем носителей информации, то несколько прикладных программ могут использовать один накопитель. Что произойдет, если одной из прикладных программ потребуется дозаписать свои данные на диск? Может произойти наложение: ситуация в которой данные одной программы будут перезаписаны другой программой. Важным шагом в развитии информационных систем явился переход к использованию централизованных систем управления файлами. С точки зрения прикладной программы, файл – именованная область внешней памяти, в которую можно записывать данные, и из которой можно их считывать. Для того чтобы была возможность считать информацию из какой либо области внешней памяти необходимо знать имя этого сектора(имя файла), размер самой области и его физическое расположение. Сама система управления файлами выполняет следующие функции:

- распределение внешней памяти;

- отображение имеет файлов в соответствующие адреса во внешней памяти;

- обеспечение доступа к данным.

Рассмотрение особенностей реализации отдельных систем управления файлами выходит за рамки данной темы. На данном этапе достаточно знать, что прикладные программы видят файл как линейную последовательность записей и могут выполнить над ним ряд операций. Основные операции сфайлами в СУФ:

- создать файл (определенного типа и размера)

- открыть ранее созданный файл

- прочитать из файла определенную запись

- изменить запись

- добавить запись в конец файла.

2.4 СУБД крупных ЭВМ

Данный этап развития связан с организацией баз данных на больших машинах типа IBM 360/370, ЕС-ЭВМ и различных моделях фирмы Hewlett Packard. В таком случае информация хранилась во внешней памяти центральной ЭВМ. Пользователями баз данных были фактически задачи, запускаемые в основном в пакетном режиме. Интерактивный режим доступа обеспечивался с помощью консольных терминалов, которые не обладали собственными вычислительными ресурсами (процессором, оперативной памятью, внешней памятью) и служили только устройствами ввода-вывода для центральной ЭВМ. Программы доступа к БД писались на различных языках программирования и запускались как обычные числовые программы. Особенности данного этапа:

Все СУБД базируются на мощных мультипрограммных ОС (Unix и др.).

Поддерживается работа с централизованной БД в режиме распределенного доступа. Функции управления распределением ресурсов выполняются операционной системой.
Поддерживаются языки низкого манипулирования данными, ориентированные на навигационные методы доступа к данным. Значительная роль отводится администрированию данных.
Проводятся серьезные работы по обоснованию и формализации реляционной модели данных. Была создана первая система (System R), реализующая идеологию реляционной модели данных.
Проводятся теоретические работы по оптимизации запросов и управлению распределенным доступом к централизованной БД, было введено понятие транзакции.
Большой поток публикаций по всем вопросам теории БД. Результаты научных исследований активно внедряются в коммерческие СУБД.

Появляются первые языки высокого уровня для работы с реляционной моделью данных (SQL), однако отсутствуют стандарты для этих языков.

2.5 Настольные СУБД

Компьютеры стали ближе и доступнее каждому пользователю. Исчез благоговейный страх рядовых пользователей перед непонятными и сложными языками программирования. Появилось множество программ, предназначенных для работы неподготовленных пользователей. Простыми и понятными стали операции копирования файлов и переноса информации с одного компьютера на другой, распечатка текстов, таблиц и других документов. Системные программисты были отодвинуты на второй план. Каждый пользователь мог себя почувствовать полным хозяином этого мощного и удобного устройства, позволяющего автоматизировать многие аспекты собственной деятельности. И, конечно, это сказалось и на работе с базами данных. Новоявленные СУБД позволяли хранить значительные объемы информации, они имели удобный интерфейс для заполнения, встроенные средства для генерации различных отчетов. Эти программы позволяли автоматизировать многие учетные функции, которые раньше велись вручную. Постоянное снижение цен на персональные компьютеры сделало такое ПО доступным не только для организаций и фирм, но и для отдельных пользователей. Компьютеры стали инструментом для ведения документации и собственных учетных функций. Это все сыграло как положительную, так и отрицательную роль в области развития баз данных. Кажущаяся простота и доступность персональных компьютеров и их программного обеспечения породила множество дилетантов. Много было создано систем-однодневок, которые не отвечали законам развития и взаимосвязи реальных объектов. Однако доступность персональных компьютеров заставила пользователей из многих областей знаний, которые ранее не применяли вычислительную технику в своей деятельности, обратиться к ним. И спрос на развитые удобные программы обработки данных заставлял поставщиков программного обеспечения поставлять все новые системы, которые принято называть настольными СУБД. Значительная конкуренция среди поставщиков заставляла совершенствовать эти конфигурации, предлагая новые возможности, улучшая интерфейс и быстродействие систем, снижая их стоимость. Наличие на рынке большого числа СУБД, выполняющих сходные функции, потребовало разработки методов экспорта-импорта данных для этих систем и открытия форматов хранения данных. Но и в этот период появлялись любители, которые вопреки здравому смыслу разрабатывали собственные СУБД, используя стандартные языки программирования. Это был тупиковый вариант, потому что дальнейшее развитие показало, что перенести данные из нестандартных форматов в новые СУБД было гораздо труднее, а в некоторых случаях требовало таких трудозатрат, что легче было бы все разработать заново, но данные все равно надо было переносить на новую более перспективную СУБД. И это тоже было результатом недооценки тех функции, которые должна была выполнять СУБД. Особенности этого этапа следующие:

Стандартизация высокоуровневых языков манипулирования данными (разработка и внедрение стандарта SQL92 во все СУБД).

Все СУБД были рассчитаны на создание БД в основном с монопольным доступом. И это понятно. Компьютер персональный, он не был подсоединен к сети, и база данных на нем создавалась для работы одного пользователя. В редких случаях предполагалась последовательная работа нескольких пользователей, например, сначала оператор, который вводил бухгалтерские документы, а потом главбух, который определял проводки, соответствующие первичным документам.

Большинство СУБД имели развитый и удобный пользовательский интерфейс. В большинстве существовал интерактивный режим работы с БД как в рамках описания БД, так и в рамках проектирования запросов. Кроме того, большинство СУБД предлагали развитый и удобный инструментарий для разработки готовых приложений без программирования.

Во всех настольных СУБД поддерживался только внешний уровень представления реляционной модели, то есть только внешний табличный вид структур данных.

При наличии высокоуровневых языков манипулирования данными типа реляционной алгебры и SQL в настольных СУБД поддерживались низкоуровневые языки на уровне отдельных строк таблиц.

В настольных СУБД отсутствовали средства поддержки ссылочной и структурной целостности базы данных. Эти функции должны были выполнять приложения, однако скудость средств разработки приложений иногда не позволяла это сделать, и в этом случае эти функции должны были выполняться пользователем, требуя от него дополнительного контроля при вводе и изменении информации, хранящейся в БД.

Наличие монопольного режима работы фактически привело к вырождению функций администрирования БД.

Сравнительно скромные требования к аппаратному обеспечению со стороны настольных СУБД. Вполне работоспособные приложения, разработанные, например, на Clipper, работали на PC 286. В принципе, их даже трудно назвать полноценными СУБД. Яркие представители этого семейства — очень широко использовавшиеся до недавнего времени СУБД Dbase (DbaseIII+, DbaseIV), FoxPro, Clipper, Paradox [Мамудян: 1985, 55].

Глава 3. ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ

3.1 Лингвистика как объект информационного отражения

Лингвистика - одна из самых динамично развивающихся наук XX века, от достижений которой во многом зависят развитие и совершенствование информационных технологий. Активное использование результатов лингвистических исследований в обществе непосредственно связано с рационально организованными информационными ресурсами в этой области (ИР Л).

Библиотеки и другие информационные службы призваны обеспечивать функционирование ИРЛ. Однако до сих пор в отечественных библиотечно-библиографических теории и практике эта проблема почти не рассматривалась.

Сложилась парадоксальная ситуация: библиотекари, библиографы, работники информационных центров не имеют четкого представления о составе, содержании и особенностях ИРЛ, основная часть которых создается в недрах науки о языке.

Достаточно отметить, что в программах библиотечно-информационных факультетов специальное изучение ИРЛ не предусматривается, и этим во многом объясняется отсутствие необходимой информации. Очевидно, что попытка комплексного изучения ИРЛ представляется необходимой и своевременной.

Изучение структуры и особенностей ИРЛ становится все более необходимым в связи с глобализацией мирового сообщества и активной интеграцией России в мировое информационное и культурное пространство.

Термин «информационные ресурсы» ( ИР ) вводится в употребление в специальной литературе с 70 - х годов XX века, но широкое распространение получает после выхода в свет монографии Г.Ф. Громова «Национальные ИР», в которой автор пишет: «ИР - продукт интеллектуальной деятельности наиболее квалифицированной части трудоспособного населения страны» Ранее в библиотечной отрасли активно употреблялся термин « библиотечно - библиографические ресурсы».

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов. Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п. Активные формы включают алгоритмы, модели, программы, базы знаний Лингвистические информационные ресурсы — это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (образовании, промышленности, экономике, культуре, искусстве, издательстве. В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста[ Мельников:1989, 30].

3.2 Пассивные лингвистические информационные ресурсы

Пассивные ЛИР включают:

1) Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь — это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД

а) частотно-алфавитный словарь словоформ какого-либо текста – простейшая лингвистическая БД;

б) словоуказатель – более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в) конкордансы – ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

г) энциклопедии – словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия «Britannica». Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии «Tons les savoire du Monde», «Le monde sur CD-ROM», «Versailles» и др. На русском языке издана «Большая Энциклопедия Кирилла и Мефодия»

д) тезаурус — принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

е) терминологическим словарь (ТС) – словарь, основной единицей которого является термин. Термин — это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

2) Письменный текстовый массив (корпус текстов, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка). а) быть использованы:

- В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

Информация о работе Базы данных и лингвистические информационные ресурсы