Автор работы: Пользователь скрыл имя, 13 Января 2013 в 18:33, доклад
Управление данными (англ. data management) — процесс, связанный с накоплением, организацией, запоминанием, обновлением, хранением данных и поиском информации.
К управлению данными относятся
• Анализ данных
• Моделирование данных
• Управление базами данных
• Работа с хранилищами данных
• Извлечение, преобразование и загрузка данных
• Добыча данных
• Обеспечение качества данных
• Защита данных
• Шифрование данных
• Управление метаданными (репозиториями данных)
• Архитектура данных
Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
2.1.8 Современные реляционные и постреляционные СУБД.
Постреляционная модель данных представляет собой расширенную реляционную модель, в которой отменено требование атомарности атрибутов. Поэтому постреляционную модель называют "не первой нормальной формой" (NF2) или "многомерной базой данных". Она использует трехмерные структуры, позволяя хранить в полях таблицы другие таблицы. Тем самым расширяются возможности по описанию сложных объектов реального мира. В качестве языка запросов используется несколько расширенный SQL, позволяющий извлекать сложные объекты из одной таблицы без операций соединения.
Существует несколько коммерческих постреляционных СУБД, более подробные сведения о них можно получить на веб-серверах фирм-производителей. Пожалуй, самыми известными из них являются системы Adabas, Pick и Universe.
Ядро постреляционных СУБД не использует ни реляционную, ни объектную схему - обычно оно построено на базе сетевой или иерархической модели. Зачем это делается? Известно, что реализации сетевой и в особенности иерархической модели БД отличаются высокой скоростью работы с данными и простотой масштабируемости. При этом гибкость языковой среды иерархических БД позволяет весьма эффективно воплощать ту или иную модель данных. Именно поэтому многие специалисты рекомендуют использовать иерархическую СУБД в качестве основы даже для "чистых" реляционных и объектных СУБД. Для работы с данными в постреляционных СУБД применяются механизмы, которые представляют массивы данных иерархического или сетевого ядра системы в виде классов объектов и реляционных таблиц и обеспечивают необходимые механизмы (например, встроенные языки третьего поколения или интерфейсы к внешним инструментариям) для работы с ними.
Основное отличие и преимущество постреляционных СУБД в сравнении с реляционно-объектными СУБД состоит в том, что в постреляционных СУБД механизмы работы с объектами и реляционными таблицами находятся на одном логическом уровне, что обеспечивает более высокую скорость доступа и работы с данными, функциональную полноту, в т.ч. соответствие определенным стандартам и спецификациям.
Несмотря на то, что
объектные базы существуют
В отсутствие общепринятой модели черезвычайную важность проибретает значение стандартов. Несмотря на усилия группы ODMG, унификация интерфейсов объектный баз различных производителей явно недостаточна. Аналогичные стандарты в мире реляционных баз хотя не идеальны, но намного более строги.
СУБД входящие в состав офисных систем.
MS Access в настоящее время является одной из самых популярных среди настольных программных систем управления базами данных. Среди причин такой популярности
следует отметить:
MS Access - высокопроизводительная (32-разрядная) система управления реляционными базами данных, которая входит в состав профессиональной версии интегрированного пакета Microsoft Office.
MS Access предназначена для разработки настольных баз данных и создания приложений баз данных архитектуры клиент-сервер, работающих под управлением операционных систем семейства Windows. Эта система доступна для пользователя любого уровня.
MS Access работает с объектами, к которым относятся таблицы, запросы, формы, отчеты, макросы и модули. Все связанные между собой объекты организованы в один файл, называемый базой данных.
Основные разделы главного окна соответствуют типам объектов, которые может содержать база данных MS Access. Это Таблицы, Запросы, Формы, Отчеты, Макросы и Модули.
Высокопроизводительные СУБД.
Berkeley DB (BDB) — высокопроизводительная встраиваемая база данных, реализованная в виде библиотеки. BDB является нереляционной базой данных — она хранит пары ключ/значение как массивы байтов и поддерживает множество значений для одного ключа. BDB может обслуживать тысячи процессов или потоков, одновременно манипулирующих базами данных размером в 256 терабайт, на разнообразном оборудовании под различными операционными системами, включая большинство UNIX-подобных систем и Windows, а также на операционных системах реального времени.
Berkeley DB примечательна своей простой архитектурой в сравнении с другими системами баз данных, такими как, например Microsoft SQL Server и Oracle Database. Например, в ней отсутствует сетевой доступ — программы используют базу данных через вызовы внутрипроцессного API. Она поддерживает SQL в качестве одного из интерфейсов, начиная с версии 5.0, хотя и не поддерживает столбцы в таблицах в традиционном понимании на уровне внутренней архитектуры. Berkeley DB предполагает работу с парами ключ-значение, где ключ и значение могут иметь фиксированную или переменную длину, а функция сравнения ключей может быть написана и назначена прикладным программистом. Программа, которая использует БД, сама решает, как данные сохраняются в записи; БД не налагает ограничений на данные, хранимые в записях. Запись и её ключ оба могут иметь размер до четырёх гигабайт.
Berkeley DB поддерживает необходимые возможности баз данных, такие как ACID-транзакции, детальные блокировки, интерфейс распределённых транзакций XA, горячее резервное копирование и репликацию. Berkeley DB может использоваться как средство для построения хранимых индексов, так и в качестве хранилища данных.
2.1.9
Объектно-ориентированные
Термин "объект" в программной индустрии впервые был введен в языке Simula (1967 г.) и означал какой-либо аспект моделируемой реальности. Сейчас под объектом понимается "нечто, имеющее четко определенные границы" (определение известного американского специалиста Г.Буча). Объекты, обладающие одинаковыми свойствами, составляют классы (например, курица, пингвин и чайка - объекты класса "птицы"). Обычно класс описывается как новый тип данных, а объекты (экземпляры класса) - определенные на его основе переменных.
Объектно-ориентированная парадигма.
Сразу же необходимо заметить, что общепринятого определения "объектно-ориентированной модели данных" не существует. Сейчас можно говорить лишь о неком "объектном" подходе к логическому представлению данных и о различных объектно-ориентированных способах его реализации.
Мы знаем, что любая модель данных должна включать три аспекта: структурный, целостный и манипуляционный. Посмотрим, как они реализуются на основе объектно-ориентированная парадигмы программирования:
Структура:
Структура объектной модели описываются с помощью трех ключевых понятий:
1 - инкапсуляция - каждый объект обладает некоторым внутренним состянием (хранит внутри себя запись данных), а также набором методов - процедур, с помощью которых (и только таким образом) можно получить доступ к данным, определяющим внутреннее состояние объекта, или изменить их. Таким образом, объекты можно рассматривать как самостоятельные сущности, отделенные от внешнего мира.
2 - наследование - подразумевает возможность создавать из классов объектов новые классы объекты, которые наследуют структуру и методы своих предков, добавляя к ним черты, отражающие их собственную индивидуальность. Наследование может быть простым (один предок) и множественным (несколько предков).
3 - полиморфизм - различные объекты могут по разному реагировать на одинаковые ****
Особенности работы сетевых версий СУБД.
К основным понятиям сетевой модели базы данных относятся: уровень, элемент (узел), связь.
Узел — это совокупность атрибутов данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. В сетевой структуре каждый элемент может быть связан с любым другим элементом.
Сетевые базы данных подобны иерархическим, за исключением того, что в них имеются указатели в обоих направлениях, которые соединяют родственную информацию.
Несмотря на то, что эта
модель решает некоторые проблемы,
связанные с иерархической
Также, поскольку логика процедуры выборки данных зависит от физической организации этих данных, то эта модель не является полностью независимой от приложения. Другими словами, если необходимо изменить структуру данных, то нужно изменить и приложение.
/********/
Сетевая СУБД - система управления базами данных, поддерживающая сетевую организацию: любая запись, называемая записью старшего уровня, может содержать данные, которые относятся к набору других записей, называемых записями подчиненного уровня.
Типичным представителем является Integrated Database Management System (IDMS) появилась в 70-х годах. Среди отечественных СУБД, основанных на сетевой модели, следует отметить CronosPRO компании Кронос-Информ, представленную в начале 90-х годов.
Сетевой подход к организации данных является расширением иерархического.
Сетевая БД состоит из набора записей и набора связей между этими записями. На формирование связи особых ограничений не накладывается. В иерархических структурах запись-потомок должна иметь в точности одного предка, а в сетевой структуре данных потомок может иметь любое число предков.
Достоинства
достоинством сетевой
модели данных является возможность
эффективной реализации по показателям
затрат памяти и оперативности. В
сравнении с иерархической
Недостатки
Пользователи сетевых СУБД ограничены связями, определенными для них разработчиками БД-приложений. Подобно иерархическим, сетевые СУБД предполагают разработку БД приложений опытными программистами и системными аналитиками.
Также к недостаткам сетевой модели данных относится высокая сложность и жесткость схемы БД, построенной на ее основе, а также сложность для понимания и выполнения обработки информации в БД обычным пользователем. Кроме того, в сетевой модели данных ослаблен контроль целостности связей вследствие допустимости установления произвольных связей между записями.
Распределенные базы данных.
Распределённые базы данных (РБД) — совокупность логически взаимосвязанных баз данных, распределённых в компьютерной сети.
Основные принципы:
РБД состоит из набора узлов, связанных коммуникационной сетью, в которой:
Каждый узел сам по себе является системой базы данных. Любой пользователь может выполнить операции над данными на своём локальном узле точно так же, как если бы этот узел вовсе не входил в распределённую систему. Распределённую систему баз данных можно рассматривать как партнёрство между отдельными локальными СУБД на отдельных локальных узлах.
Фундаментальный принцип создания распределённых баз данных («правило 0»): Для пользователя распределённая система должна выглядеть так же, как нераспределённая система.
Фундаментальный принцип имеет следствием определённые дополнительные правила или цели. Таких целей всего двенадцать:
Информация о работе Управление данными в информационных системах