Автор работы: Пользователь скрыл имя, 29 Мая 2012 в 22:27, контрольная работа
Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.
Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как «хранилище данных». Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР).
1. Концепция хранилища данных
2. Виртуальные информационные хранилища…………………………….…5
3. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse)……………………………………….11
4. Технологии передачи данных……………………………………………...15
Заключение………………………………………………………………….27
Список использованной литературы………………………………………28
Технические требования к хранилищу данных охватывают следующие аспекты:
- требования по составу выполняемых функций;
- требования к безопасности и защите от несанкционированного доступа;
- эргономические требования;
- требования к интерфейсам;
- эксплуатационные требования;
- требования к сопровождению;
- проектные ограничения и квалификационные требования.
Список приоритетов реализации требований представляет собой детализированные требования к системе, ранжированные в порядке убывания приоритетов их реализации при проектировании и разработке приложений и хранилища данных. Приоритеты устанавливаются на основе величины эффекта с точки зрения конечного пользователя от реализации требований.
Требования к рабочим характеристикам системы включает в себя: процедуру восстановления и защиту от неисправностей, защиту от несанкционированного доступа, производительность системы. Эти требования и предварительная модель архитектуры разрабатываются на основе «Техническое задание», «Постановка задачи», «Список приоритетов реализации требований» и полного комплекта справочных материалов с учетом глоссария предметной области.
Детализированные эксплуатационные требования к системе включают в себя:
В результате выполнения работы «Определение требований по архитектуре, надежности и защите от несанкционированного доступа» формируются: «Эксплуатационные требования к системе» и «Предварительная модель архитектуры».
Эксплуатационные требования к системе определяют требования к составу функций и процедур, необходимых для поддержки системы в работоспособном состоянии. Сюда также входят требования по обеспечению контроля, за функционированием технического обеспечения и сбора сведений для анализа причин возникновения нештатных ситуаций.
Предварительная архитектура определяет ее технический и функциональный аспекты, базирующиеся на функциональных требованиях к системе. В ней описываются технические и функциональные компоненты хранилища данных, требуемые для поддержки реализации функциональных требований, определенных в техническом задании.
На основе состава хранилища данных анализ доступных источников данных и выявление тех источников, информация которых необходима для обеспечения сведениями пользователей.
Описание источников данных представляет собой список операционных и внешних источников данных, отвечающих требованиям по составу и типам информации, описанным в «Постановке задачи». Описание определяет также объемы передаваемых данных. Необходимо составить список источников данных ИАС, классифицировать их по территориальному, административному расположению, степени достоверности, частоте обновляемости, количеству пользователей, секретности и используемым системам хранения и управления данными.
Основными источниками данных для хранилища данных, как правило, являются внешние хранилища данных, БД оперативных систем, данные наследованных систем, архивы, оперативные данные, специализированные системы сбора данных. Проверяется актуальность и доступность источников данных. Производится определение критериев оценки источников, оценка и выбор источников из альтернативных вариантов.
Данные, выбираемые из источников, как правило, имеют различную структуру, формат, стандарты представления дат и т.д. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют, и источники их получения. Без предварительной доработки и согласования, эти данные бесполезны и не могут быть непосредственно использованы в задачах анализа.
В результате формируются: «Схема администрирования», «Схема защиты от несанкционированного доступа», «Оценка технических рисков», «Описание процедур возврата и восстановления при сбоях», «Интегрированная модель архитектуры» и «Скорректированный проект архитектуры», «Функциональные и архитектурные прототипы».
Схема администрирования определяет состав и назначение задач, используемых для управления хранилищем данных, включая управление надежностью, полнотой и целостностью данных. В схему также включается описание реализации эксплуатационных требований. Схема может отображать состав и назначение функций по передаче из источников данных, преобразованию и загрузке в хранилище данных информации. В нее также может быть включено описание функций и процедур управления метаданными с использованием принятого комплекса инструментальных средств управления хранилищем данных и среды доступа к его информации.
Схема защиты от несанкционированного доступа описывает реализацию требований по защите информации и среды от несанкционированного доступа и функциональных требований по обеспечению данными конечных пользователей.
Оценка технических рисков содержит описание потенциальных рисков, связанных с проектированием и разработкой хранилища данных, и рекомендуемые меры их нейтрализации до или после их возникновения.
Описание процедур возврата и восстановления при сбоях описывает на верхнем уровне рекомендуемую стратегию и процедуры резервирования информации в целях ее восстановления при сбоях и отказах системы в рамках принятой технической архитектуры системы.
В
завершенной модели архитектуры
описываются компоненты технического
и программного обеспечения и
инфраструктуры хранилища данных, и
показывается, как они взаимосвязаны между
собой и с внешними системами.
3
. ОБЗОР ВОЗМОЖНОСТЕЙ ПРИМЕНЕНИЯ ВЕДУЩИХ
СУБД ДЛЯ ПОСТРОЕНИЯ ХРАНИЛИЩ ДАННЫХ (DataWarehouse)
1. Основным источником информации, поступающей в оперативную БД, является деятельность корпорации. Для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов). Хранилище данных должно включать как внутренние корпоративные данные, так и внешние данные.
2. Для оперативной обработки требуются свежие данные за несколько последних месяцев, для проведения достоверных анализа и прогнозирования в хранилище данных нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет. Объем аналитических БД как минимум на порядок больше объема оперативных.
3. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую. Хранилище данных должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и «очистки» информации из разных источников.
4. Оперативные ИС создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. Набор запросов к аналитической базе данных предсказать невозможно. Хранилища данных существуют, чтобы отвечать на нерегламентированные (ad hoc) запросы аналитиков. Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.).
5. Оперативные БД по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно). При малой изменчивости аналитических БД (только при загрузке данных) оказываются разумными упорядоченность массивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных.
6. Для оперативных ИС обычно хватает защиты информации на уровне таблиц. Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты (индивидуальные права доступа к определенным строкам и/или столбцам таблицы).
Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.
В основе концепции хранилища данных лежат две основные идеи:
(1) Интеграция разъединенных детализированных данных (детали-зированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.
(2) Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.
Свойства информационных хранилищ
Уильям
Инмон, считающийся основателем
нового направления развития технологии
БД, дал классическое определение
информационного хранилища в 1990
г. Он охарактеризовал его как
специальным образом
- Предметная ориентация
- Интегрированность данных
- Инвариантность во времени
- Неразрушаемость - cтабильность информации
- Минимизация избыточности информации
Основные компоненты информационного хранилища
ПО промежуточного слоя обеспечивает сетевой доступ и доступ к базам данных. Сюда относятся сетевые и коммуникационные протоколы, драйверы, системы обмена сообщениями и пр.
Транзакционные БД и внешние источники информации
Уровень доступа к данным, относящееся сюда ПО, обеспечивает общение конечных пользователей с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).
Загрузка и предварительная обработка, этот уровень включает в себя набор средств, для загрузки данных из БД и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.
Информационное хранилище представляет собой ядро всей системы - один или несколько серверов БД.
Метаданные, играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т. д.
Уровень информационного доступа обеспечивает непосредственное общение пользователя с БД посредством стандартных систем манипулирования, анализа и предоставления данных, типа MS Excel, MS Access, Lotus 1-2-3 и др.
Уровень управления (администрирования) отслеживает выполнение процедур, необходимых для обновления информационного хранилища или поддержания его состояния. Здесь программируются процедуры подкачки данных, перестройки индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.