Автор работы: Пользователь скрыл имя, 03 Мая 2015 в 03:28, реферат
В настоящее время для эффективной работы компании и принятия управленческих решений необходимо использовать большие потоки информации, как о внутреннем состоянии организации, так и о её внешней среде. Для этого необходимы инструменты, с помощью которых можно было бы хранить большой объем информации для принятия решений на основе фактических данных. В наше время без хранилищ данных не обходится практически ни одно предприятие. В данном реферате рассматривается понятие хранилища данных и раскрывается его структура. В работе освещена сущность и применение OLAP-технологий и логическая организация OLAP-данных, рассматриваются многомерное представление информации с помощью OLAP-кубов, а также основные термины и понятия, применяемые при обсуждении многомерного анализа.
Введение 3
Хранилище данных 4
Сущность хранилища данных 4
Архитектура хранилища данных 8
OLAP-технологии 11
Сущность OLAP-технологий. Клиентские и серверные OLAP-средства 11
OLAP-куб 15
Типы OLAP 18
Применение OLAP-технологий как инструмента бизнес-аналитики 20
Заключение 22
Федеральное агентство по образованию РФ
Саратовский государственный социально – экономический университет
Кафедра информационных систем в экономике
Реферат
на тему:
OLAP-технологии и хранилища данных
Выполнила
студентка 3 курса
ФЭМ 5 группы
Паршкова Алена.
Проверила:
Никулина
Юлия Владимировна.
Саратов 2013
Содержание
Введение 3
Заключение 22
Библиографический список 23
Введение
В настоящее время для эффективной работы компании и принятия управленческих решений необходимо использовать большие потоки информации, как о внутреннем состоянии организации, так и о её внешней среде. Для этого необходимы инструменты, с помощью которых можно было бы хранить большой объем информации для принятия решений на основе фактических данных. В наше время без хранилищ данных не обходится практически ни одно предприятие. В данном реферате рассматривается понятие хранилища данных и раскрывается его структура. В работе освещена сущность и применение OLAP-технологий и логическая организация OLAP-данных, рассматриваются многомерное представление информации с помощью OLAP-кубов, а также основные термины и понятия, применяемые при обсуждении многомерного анализа.
1.1 Сущность хранилища данных
В настоящее время в организациях принять какое-либо управленческое решение невозможно без необходимой для этого информации, чаще всего количественной. Для хранения больших объемов такой информации необходимо создание хранилищ данных (англ. Data warehouses), то есть предметно-ориентированная информационная база данных, которая специально разработана и предназначена для бизнес-анализа и подготовки отчётов с целью принятия управленческих решений.
Концепция хранилища данных появилась в 80-х годах после выхода в 88 г. статьи Пола Мерфи и Барри Девлина «Архитектура деловых и информационных систем», в которой было документировано использование хранилищ данных в IBM. Но основателями этой концепции считаются Билл Инмон с книгой «Building the Data Warehouse», опублинованной в 1991 году, и Ральф Кимбалл, книга которого «The Data Warehouse Lifecycle Toolkit» вышла в 1998 году. Б.Инмона определил хранилище данных как «предметно-ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений». Определение Р. Кимбалла называет хранилище данных «местом, где люди могут получить доступ к своим данным». Он также сформулировал основные требования к хранилищам данных:
Однако трудно удовлетворять всем этим требованиям в рамках одного продукта. Поэтому для реализации хранилищ данных чаще всего используют несколько продуктов, одни их которых служат непосредственно для хранения данных, другие — для их извлечения и просмотра, третьи — для их пополнения и т.д.
Хранилища данных строятся на базе СУБД и СППР. Система управления базами данных (СУБД) — это совокупность лингвистических и программных средств общего или специального назначения, которые обеспечивают управление созданием и использованием баз данных. СУБД выполняет такие функции, как управление данными во внешней и оперативной памяти, составление журналов изменений, резервное копирование и восстановление базы данных после сбоев, а также поддержка языков БД. Система поддержки принятия решений (СППР) — это автоматизированная компьютерная система, которая предназначена для помощи менеджерам, принимающим решение в сложных условиях для объективного и полного анализа предметной деятельности. СППР появились в результате слияния управленческих информационных систем и СУБД. Для анализа информации в СППР используются различные методы, такие как информационный поиск, интеллектуальный анализ данных, поиск знаний в базах данных, рассуждение на основе прецедентов, имитационное моделирование, когнитивное моделирование, ситуационный анализ и др.
Несмотря на то, что хранилище данных является информационной базой данных, оно имеет ряд отличий от обычной реляционной базы данных. Среди них выделяют три основных отличия:
Существует большое количество методов построения хранилищ данных. Но, несмотря на различия в методах, подходах и реализациях, существуют общие черты, которые свойственны всем хранилищам данных. Эти черты были сформулированы Б. Инмоном в книге «Building the Data Warehouse». Основные из них:
1.2 Архитектура хранилища данных
По своей архитектуре хранилища данных делятся на нормализованные ХД и хранилища с измерениями.
В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы (когда база данных приведена ко второй нормальной форме и каждый не ключевой столбец независим друг от друга). Нормализованные хранилища являются более простыми в создании и управлении. Недостатком нормализованных хранилищ является большое количество таблиц вследствие нормализации. Из-за этого для получения какой-либо информации необходимо делать выборку одновременно из многих таблиц, а это ведет к ухудшению производительности системы.
В хранилищах данных с измерениями используются схему «звезда» или схему «снежинка».
Схема «звезды», звездоподобная схема, схема звёздного соединения, звёздная схема — это специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Она лежит в основе реляционного OLAP.
Такая модель состоит из двух видов таблиц: одной таблицы фактов (fact table), которая является центром «звезды», и нескольких таблиц измерений (dimension table) — лучи «звезды».
Таблица фактов является основной для хранилища данных. Обычно, она содержит сведения об объектах или событиях, система которых будет впоследствии подвергаться анализу. Существует четыре наиболее часто встречающихся типа фактов:
Таблица фактов содержит одну или несколько колонок, которые дают числовую характеристику какому-либо аспекту предметной области, и несколько целочисленных колонок-ключей, которые необходимы для доступа к таблицам измерений.
Таблицы измерений включают неизменяемые или редко изменяемые данные. Чаще всего эти данные содержат по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат одно или более описательное поле и целочисленное ключевое поле для однозначной идентификации члена измерения. Если будущее измерение, основанное на исходной таблице измерений, содержит иерархию, то таблица измерений тоже может содержать поля, которые указывают на более высокую ступень для данного члена в этой иерархии.
Обычно данные в таблицах измерений денормализованы. Ценой неэффективного использования дискового пространства удается уменьшить число таблиц, участвующих в операции соединения, что обычно приводит к сильному сокращению времени выполнения запроса. Иногда требуется произвести нормализацию таблиц измерений. Получившаяся в результате этого схема называется«снежинка» (snowflake schema).
Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Так же как и в схеме звезды, схема снежинки состоит из централизованной таблицы фактов, соединенной с таблицами измерений. «Снежинка» отличается от «звезды» тем, что в ней таблицы измерений нормализованы с рядом других связанных измерительных таблиц, а в схеме звезды таблицы измерений не нормализованы, с каждым измерением, представленным в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше таблицы измерений нормализированы, тем сложнее выглядит структура схемы снежинки. Такой «эффект снежинки» касается только таблицы измерений, и не применяется к таблицам фактов.
Клиентские и серверные OLAP-средства
Одним из основных компонентов хранилища данных являются системы аналитической обработки данных. Разновидностью таких систем является OLAP-инструменты, необходимые для оперативной аналитической обработки данных.
Аббревиатура OLAP расшифровывается как Online Analytical Processing, что примерно переводится как обработка данных в реальном времени. OLAP как технология обработки данных заключается в подготовке агрегированной (суммарной) информации на основе больших массивов данных, которые структурированы по многомерному принципу.
Первой многомерной СУБД, по своей сути являющейся реализацией OLAP, считается система Express, которая была разработана в 1970 году компанией IRI (позднее права на продукт были приобретены корпорацией Oracle и превращён в OLAP-опцию для Oracle Database). Основоположником термина OLAP является Эдгар Кодд. Он ввел его в журнале «Computerworld» в 1993 году. В своей пуликации Э.Кодд предложил 12 принципов аналитической обработки, аналогично с 12 правилами для реляционных баз данных, которые он сформулировал десятью годами ранее. В качестве характерного продукта, удовлетворяющего этим принципам, Кодд обратил внимание на систему Essbase компании Arbor (в 1997 году она была поглощена компанией Hyperion, которую, в 2007 году купила Oracle).