Хранилища данных

Автор работы: Пользователь скрыл имя, 29 Мая 2012 в 22:27, контрольная работа

Описание работы

Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.
Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как «хранилище данных». Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР).

Содержание работы

1. Концепция хранилища данных
2. Виртуальные информационные хранилища…………………………….…5
3. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse)……………………………………….11
4. Технологии передачи данных……………………………………………...15
Заключение………………………………………………………………….27
Список использованной литературы………………………………………28

Файлы: 1 файл

контрольная работа по информационным технологиям в экономике.doc

— 956.50 Кб (Скачать файл)
  1. возможность управления сверхбольшими объемами данных;
  2. возможность гибкого доступа к данным;
  3. возможность принимать и распространять данные по широкому спектру аппаратно-программных платформ;
  4. возможность периодической дозагрузки данных;
  5. возможность доступа, как к набору данных, так и к единственной записи за один запрос.

     Технические требования к хранилищу данных охватывают следующие аспекты:

     - требования по составу выполняемых функций;

     - требования к безопасности и защите от несанкционированного доступа;

     - эргономические требования;

     - требования к интерфейсам;

     - эксплуатационные требования;

     - требования к сопровождению;

     - проектные ограничения и квалификационные требования.

     Список  приоритетов реализации требований представляет собой детализированные требования к системе, ранжированные  в порядке убывания приоритетов  их реализации при проектировании и  разработке приложений и хранилища  данных. Приоритеты устанавливаются на основе величины эффекта с точки зрения конечного пользователя от реализации требований.

     Определение требований по архитектуре, надежности и защите от несанкционированного доступа.

     Требования  к рабочим характеристикам системы включает в себя: процедуру восстановления и защиту от неисправностей, защиту от несанкционированного доступа, производительность системы. Эти требования и предварительная модель архитектуры разрабатываются на основе  «Техническое задание», «Постановка задачи», «Список приоритетов реализации требований» и полного комплекта справочных материалов с учетом глоссария предметной области.

     Детализированные  эксплуатационные требования к системе включают в себя:

  1. Требования к надежности, определяющие:
  2. Состав и количественные значения показателей надежности для системы в целом или ее подсистем;
  3. Перечень аварийных ситуаций, по которым должны быть регламентированы требования к надежности, и значения соответствующих показателей;
  4. Требования к надежности технических средств и программного обеспечения;
  5. Требования к методам оценки и контроля показателей надежности на разных стадиях создания системы в соответствии с действующими нормативно - техническими документами;
  6. Требования к производительности системы, которые определяют допустимое время реакции на запросы с рабочих мест пользователей, время восстановления системы после сбоев и отказов, время корректировки хранилища данных и т.д.;
  7. Требования к эргономике и технической эстетике, которые включают в себя показатели, задающие необходимое качество взаимодействия человека с машиной и комфортность условий работы персонала;
  8. Требования к эксплуатации, техническому обслуживанию, определяющие:
  9. Условия и регламент (режим) эксплуатации, которые должны обеспечивать функционирование системы с заданными техническими показателями, в том числе виды и периодичность обслуживания технических средств системы или допустимость работы без обслуживания;
  10. Требования к регламенту обслуживания;
  11. Требования к защите информации от несанкционированного доступа, включают в себя как общие требования к организации защиты от несанкционированного доступа к информации в процессе ее переноса их источников данных в хранилище данных и ее запросах с рабочих мест пользователей, так и конкретные требований для отдельных категорий данных;
  12. Требования по сохранности информации при авариях, определяющие перечень исключительных ситуаций (сбоев, отказов (том числе - питания) и т. п.), при которых должна быть обеспечена сохранность информации в системе;
  13. Требования по стандартизации и унификации, включающие в себя показатели, устанавливающие требуемую степень использования стандартных, унифицированных методов реализации функций системы, поставляемых программных средств, типовых математических методов и моделей, типовых проектных решений, унифицированных форм управленческих документов, общероссийских классификаторов и классификаторов других категорий в соответствии с областью их применения, требования к использованию типовых автоматизированных рабочих мест, компонентов и комплексов.

     В результате выполнения работы «Определение требований по архитектуре, надежности и защите от несанкционированного доступа» формируются: «Эксплуатационные требования к системе» и «Предварительная модель архитектуры».

     Эксплуатационные  требования к системе определяют требования к составу функций и процедур, необходимых для поддержки системы в работоспособном состоянии. Сюда также входят требования по обеспечению контроля, за функционированием технического обеспечения и сбора сведений для анализа причин возникновения нештатных ситуаций.

     Предварительная архитектура определяет ее технический  и функциональный аспекты, базирующиеся на функциональных требованиях к  системе. В ней описываются технические  и функциональные компоненты хранилища  данных, требуемые для поддержки реализации функциональных требований, определенных в техническом задании.

     На основе состава хранилища данных анализ доступных источников данных и выявление тех источников, информация которых необходима для обеспечения сведениями пользователей.

     Описание  источников данных представляет собой  список операционных и внешних источников данных, отвечающих требованиям по составу и типам информации, описанным  в «Постановке задачи». Описание определяет также объемы передаваемых данных. Необходимо составить список источников данных ИАС, классифицировать их по территориальному, административному расположению, степени достоверности, частоте обновляемости, количеству пользователей, секретности и используемым системам хранения и управления данными.

     Основными источниками данных для хранилища данных, как правило, являются внешние хранилища данных, БД оперативных систем, данные наследованных систем, архивы, оперативные данные, специализированные системы сбора данных. Проверяется актуальность и доступность источников данных. Производится определение критериев оценки источников, оценка и выбор источников из альтернативных вариантов.

     Данные, выбираемые из источников, как правило, имеют различную структуру, формат, стандарты представления дат  и т.д. Для обозначения одних и тех же объектов, используются различные кодировки. Как правило, в них, в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют, и источники их получения. Без предварительной доработки и согласования, эти данные бесполезны и не могут быть непосредственно использованы в задачах анализа.

     В результате формируются: «Схема администрирования», «Схема защиты от несанкционированного доступа», «Оценка технических рисков», «Описание процедур возврата и восстановления при сбоях», «Интегрированная модель архитектуры» и «Скорректированный проект архитектуры», «Функциональные и архитектурные прототипы».

     Схема администрирования определяет состав и назначение задач, используемых для  управления хранилищем данных, включая  управление надежностью, полнотой и целостностью данных. В схему также включается описание реализации эксплуатационных требований. Схема может отображать состав и назначение функций по передаче из источников данных, преобразованию и загрузке в хранилище данных информации. В нее также может быть включено описание функций и процедур управления метаданными с использованием принятого комплекса инструментальных средств управления хранилищем данных и среды доступа к его информации.

     Схема защиты от несанкционированного доступа описывает реализацию требований по защите информации и среды от несанкционированного доступа и функциональных требований по обеспечению данными конечных пользователей.

     Оценка  технических рисков содержит описание потенциальных рисков, связанных  с проектированием и разработкой хранилища данных, и рекомендуемые меры их нейтрализации до или после их возникновения.

     Описание  процедур возврата и восстановления при сбоях описывает на верхнем  уровне рекомендуемую стратегию  и процедуры резервирования информации в целях ее восстановления при сбоях и отказах системы в рамках принятой технической архитектуры системы.

     В завершенной модели архитектуры  описываются компоненты технического и программного обеспечения и  инфраструктуры хранилища данных, и показывается, как они взаимосвязаны между собой и с внешними системами. 

     3 . ОБЗОР ВОЗМОЖНОСТЕЙ ПРИМЕНЕНИЯ ВЕДУЩИХ СУБД ДЛЯ ПОСТРОЕНИЯ ХРАНИЛИЩ ДАННЫХ (DataWarehouse) 

     1. Основным источником информации, поступающей в оперативную БД, является деятельность корпорации. Для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов). Хранилище данных должно включать как внутренние корпоративные данные, так и внешние данные.

     2. Для оперативной обработки требуются свежие данные за несколько последних месяцев, для проведения достоверных анализа и прогнозирования в хранилище данных нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет. Объем аналитических БД как минимум на порядок больше объема оперативных.

     3. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую. Хранилище данных должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и «очистки» информации из разных источников.

     4. Оперативные ИС создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. Набор запросов к аналитической базе данных предсказать невозможно. Хранилища данных существуют, чтобы отвечать на нерегламентированные (ad hoc) запросы аналитиков. Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.).

   5. Оперативные БД по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно). При малой изменчивости аналитических БД (только при загрузке данных) оказываются разумными упорядоченность массивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных.

   6. Для оперативных ИС обычно хватает защиты информации на уровне таблиц. Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты (индивидуальные права доступа к определенным строкам и/или столбцам таблицы).

     Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для  целей поддержки управления.

     В основе концепции  хранилища данных лежат две основные идеи:

     (1) Интеграция разъединенных детализированных данных (детали-зированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.

     (2) Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

     Свойства информационных хранилищ

     Уильям  Инмон, считающийся основателем  нового направления развития технологии БД, дал классическое определение  информационного хранилища в 1990 г. Он охарактеризовал его как  специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:

     - Предметная ориентация

     - Интегрированность данных

     - Инвариантность во времени

     - Неразрушаемость - cтабильность информации

     - Минимизация избыточности информации

     Основные  компоненты информационного  хранилища 

     ПО  промежуточного слоя обеспечивает сетевой доступ и доступ к базам данных. Сюда относятся сетевые и коммуникационные протоколы, драйверы, системы обмена сообщениями и пр.

     Транзакционные  БД и внешние источники  информации

     Уровень доступа к данным, относящееся сюда ПО, обеспечивает общение конечных пользователей с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).

     Загрузка  и предварительная  обработка, этот уровень включает в себя набор средств, для загрузки данных из БД и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.

     Информационное хранилище представляет собой ядро всей системы - один или несколько серверов БД.

     Метаданные, играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т. д.

     Уровень информационного доступа обеспечивает непосредственное общение пользователя с БД посредством стандартных систем манипулирования, анализа и предоставления данных, типа MS Excel, MS Access, Lotus 1-2-3 и др.

     Уровень управления (администрирования) отслеживает выполнение процедур, необходимых для обновления информационного хранилища или поддержания его состояния. Здесь программируются процедуры подкачки данных, перестройки индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.

Информация о работе Хранилища данных