Хранилища данных

Автор работы: Пользователь скрыл имя, 29 Мая 2012 в 22:27, контрольная работа

Описание работы

Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.
Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как «хранилище данных». Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР).

Содержание работы

1. Концепция хранилища данных
2. Виртуальные информационные хранилища…………………………….…5
3. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse)……………………………………….11
4. Технологии передачи данных……………………………………………...15
Заключение………………………………………………………………….27
Список использованной литературы………………………………………28

Файлы: 1 файл

контрольная работа по информационным технологиям в экономике.doc

— 956.50 Кб (Скачать файл)

     Неоднородность  программной среды

     Хранилище данных практически никогда не создается  на, пустом месте. Почти всегда конечное решение будет разнородным, т.е. в нем будут использоваться автономно разработанные программные средства. Прежде всего, это касается формирования интегрированного согласованного набора данных, которые могут поступать из разнородных баз данных, электронных архивов, публичных и коммерческих электронных каталогов, справочников, статистических сборников. При построении хранилища данных приходится решать задачу построения единой, согласованно функционирующей информационной системы на основе неоднородных программных средств и решений. При выборе средств реализации хранилища данных приходится учитывать множество факторов, включающих уровень совместимости различных программных компонентов, легкость их освоения и использования, эффективность функционирования и т.д.

     Распределенный  характер организации

     В концепции хранилища данных предопределено то, что операционная аналитическая  обработка может выполняться  в любом узле сети независимо от места расположения основного хранилища. Хотя при аналитической обработке данные только читаются, и потребность в синхронизации отсутствует, для достижения эффективности необходимо поддерживать репликацию данных в разных узлах сети. (На самом деле, все не так просто. Одним из требований к хранилищам данных является то, чтобы свежая информация поступала в хранилище как можно быстрее. Т.е. потенциально любая модификация оперативной БД может инициировать добавление данных к хранилищу данных, а тогда потребуется обновить и все реплики, для чего синхронизация все-таки нужна.)

     Повышение требований к безопасности данных

     Собранная вместе согласованная информация об истории развития корпорации, ее успехах  и неудачах, о взаимоотношениях с  поставщиками и заказчиками, об истории  и состоянии рынка дает возможность  анализа прошлой и текущей деятельности корпорации и построения прогнозов для будущего. Эта информация настолько ценна для корпорации, что нельзя допустить возможности ее утечки (на самом деле, если хранилище данных одной корпорации попадет в руки аналитиков другой корпорации, то все аналитические прогнозы первой корпорации сразу станут неверными). В системах, основанных на хранилищах данных, оказывается недостаточной защита данных в стиле языка SQL, которую обеспечивают обычные коммерческие СУБД (этот уровень защиты соответствует классу C2 в соответствии с классификацией Оранжевой Книги Министерства обороны США). Для обеспечения должного уровня защиты доступ к данным должен контролироваться не только на уровне таблиц и их столбцов, но и на уровне отдельных строк (это уже соответствует классу B1 Оранжевой Книги). Приходится также решать вопросы аутентификации пользователей, защиты данных при их перемещении в хранилище данных из оперативных баз данных и внешних источников, защиты данных при их передаче по сети.

     Потребность в эффективном хранении и обработке очень больших объемов  информации. Уже сейчас известны примеры хранилищ данных, содержащих терабайты информации. По данным консалтинговой компании Meta Group, около половины корпораций, использующих или планирующих использовать хранилища данных, предполагает довести их объем до сотен гигабайт. Проблемой таких больших хранилищ является то, что накладные расходы на внешнюю память возрастают нелинейно при возрастании объема хранилища. Исследования, проведенные на основе тестового набора TPC-D, показали, что для баз данных объемом в 100 гигабайт потребуется внешняя память объемом в 4.87 раза большая, чем нужно собственно для полезных данных. При дальнейшем росте баз данных этот коэффициент увеличивается.

     Реализация  хранилищ и витрин данных

     Варианты  реализации хранилищ данных

     - Виртуальное хранилище данных

     - Витрины данных

     - Глобальное хранилище данных

     - Многоуровневая архитектура хранилища данных

     Виртуальное хранилище данных

     В его основе - репозиторий метаданных, которые описывают источники информации (БД транзакционных систем, внешние файлы и др.), SQL-запросы для их считывания и процедуры обработки и предоставления информации. Непосредственный доступ к последним, обеспечивает ПО промежуточного слоя. В этом случае избыточность данных нулевая.

     Витрина данных

     Витрина данных (Data Mart) по своему исходному определению - это набор тематически связанных  баз данных, которые содержат информацию, относящуюся к отдельным аспектам деятельности корпорации. По сути дела, витрина данных - это облегченный вариант хранилища данных, содержащий только тематически объединенные данные. Целевая база данных максимально приближена к конечному пользователю и может содержать тематически ориентированные агрегатные данные. Витрина данных, естественно, существенно меньше по объему, чем корпоративное хранилище данных, и для его реализации не требуется особо мощная вычислительная техника.

     Глобальное  хранилище данных

     В последнее время все более  популярной становится идея совместить концепции хранилища и витрины данных в одной реализации и использовать хранилище данных в качестве единственного источника интегрированных данных для всех витрин данных. Тогда естественной становится такая трехуровневая архитектура системы:

     На  первом уровне реализуется корпоративное хранилище данных на основе одной из развитых современных реляционных СУБД. Это хранилище интегрированных в основном детализированных данных. Реляционные СУБД обеспечивают эффективное хранение и управление данными очень большого объема.

     На втором уровне поддерживаются витрины данных на основе многомерной системы управления базами данных (примером такой системы является Oracle Express Server). Такие СУБД почти идеально подходят, но пока не позволяют хранить сверхбольшие объемы данных (предельный размер многомерной базы данных составляет 10-40 Гбайт). В данном случае это и не требуется, поскольку речь идет о витринах данных.

     Наконец, на третьем уровне находятся клиентские рабочие места конечных пользователей, на которых устанавливаются средства оперативного анализа данных.  

4. ТЕХНОЛОГИИ ПЕРЕДАЧИ ДАННЫХ 

     Практически у любой современной компании существует потребность в улучшении  эффективности сетей и технологий компьютерных систем. Одно из необходимых  условий для этого - беспрепятственная передача информации между серверами, хранилищами данных, приложениями и пользователями. Именно способ передачи данных в информационных системах часто становится «бутылочным горлышком» по производительности, сводя на нет все преимущества современных серверов и систем хранения. Разработчики и системные администраторы пытаются устранить наиболее очевидные узкие места, хотя и знают, что после устранения узкого места в одной части системы оно возникает в другой.

     На  протяжении многих лет узкие места  возникали преимущественно на серверах, но по мере функционального и технологического развития серверов они стали перемещаться в сети и системы сетевого хранения данных. В последнее время созданы очень крупные массивы хранения, что переносит узкие места обратно в сеть. Рост объемов данных и их централизация, а также требования приложений нового поколения к пропускной способности часто поглощают всю имеющуюся полосу пропускания.

     Когда перед менеджером информационной службы встает задача создания новой или  расширения имеющейся системы обработки информации, одним из важнейших вопросов для него будет выбор технологии передачи данных. Эта проблема включает в себя выбор не только сетевой технологии, но и протокола соединения различных, периферийных устройств. Наиболее популярные решения, широко применяемые для построения сетей хранения SAN (Storage Area Network), - это Fibre Channel, Ethernet и InfiniBand.  

Технология Ethernet

     Сегодня технология Ethernet занимает лидирующее положение в секторе высокопроизводительных, локальных сетей. Во всем мире предприятия вкладывают средства в кабельные системы и оборудование для Ethernet, в обучение персонала. Широкое распространение этой технологии позволяет удерживать низкие цены на рынке, а стоимость внедрения каждого нового поколения сетей имеет тенденцию к снижению. Постоянный рост объема трафика в современных сетях заставляет операторов, администраторов и архитекторов корпоративных сетей присматриваться к более быстрым сетевым технологиям, чтобы решить проблему дефицита пропускной способности. Добавление в семейство Ethernet стандарта 10-Gigabit Ethernet позволяет поддерживать в локальных сетях новые ресурсоемкие приложения.

     Появившись  более четверти века назад, технология Ethernet вскоре стала доминирующей в  построении локальных сетей. Благодаря простоте инсталляции и сопровождения, надежности и низкой стоимости реализации ее популярность выросла настолько, что сегодня можно смело утверждать - почти весь трафик в Интернете начинается и заканчивается в Ethernet-сетях. Стандарт IEEE 802.3ae 10-Gigabit Ethernet, одобренный в июне 2002 г., стал поворотным пунктом в развитии этой технологии. С его появлением область использования Ethernet расширяется до масштабов городских (MAN) и глобальных (WAN) сетей.

     Стандарт 10-Gigabit Ethernet предусматривает передачу информационного потока на скорости до 10 Гбит/с по одно- и многомодовому оптическому кабелю. В зависимости от среды передачи расстояние может составлять от 65 м до 40 км. Новый стандарт должен был обеспечить выполнение следующих основных технических требований:

     - двунаправленный обмен данными в дуплексном режиме в сетях топологии точка-точка;

     - поддержка скорости передачи данных 10 Гбит/с, на МАС-уровне;

     - спецификация физического уровня LAN PHY для соединения с локальными сетями, оперирующего на МАС-уровне со скоростью передачи данных 10 Гбит/с;

     - спецификация физического уровня WAN PHY для соединения с сетями SONET/SDH, оперирующего на МАС-уровне со скоростью передачи данных, совместимой со стандартом OC-192;

     - определение механизма приспособления скорости передачи данных, уровня МАС к скорости передачи данных WAN PHY;

     - поддержка двух типов оптоволоконного кабеля - одномодового (SMF) и многомодового (MMF);

     - спецификация независимого от среды передачи интерфейса XGMII;

     - обратная совместимость с предыдущими версиями Ethernet (сохранение формата пакета, размера и т. п.).

      Технология 10-Gigabit Ethernet обеспечивает низкую, по сравнению с альтернативными, стоимость владения, включая как стоимость приобретения, так и поддержки, поскольку имеющаяся у заказчиков инфраструктура сетей Ethernet легко взаимодействует с ней. Кроме того, 10 Gigabit Ethernet привлекает администраторов уже знакомой организацией управления и возможностью применить накопленный опыт, так как она использует процессы, протоколы и средства управления, уже развернутые в существующей инфраструктуре. Стоит напомнить, что этот стандарт предоставляет гибкость при проектировании соединений между серверами, коммутаторами и маршрутизаторами. Таким образом, технология Ethernet предлагает три основных преимущества:

     - простоту эксплуатации,

     - высокую пропускную способность,

     - низкую стоимость.

     Кроме того, она проще некоторых других технологий, потому что позволяет  связывать сети, расположенные в  разных местах, как части единой сети. Пропускная способность Ethernet наращивается шагами от 1 до 10 Гбит/с, что позволяет эффективнее использовать емкость сети. Наконец, оборудование Ethernet, как правило, более экономически эффективно по сравнению с традиционным телекоммуникационным оборудованием.

     В последние годы Ethernet стали широко применять и операторы связи - для соединения объектов в пределах города. Но сеть Ethernet может протянуться  еще дальше, охватив целые континенты.  

Fibre Channel

     Технология Fibre Channel дает возможность принципиально изменить архитектуру компьютерной сети любой крупной организации. Дело в том, что она хорошо подходит для реализации централизованной системы хранения данных SAN, где дисковые и ленточные накопители находятся в своей отдельной сети, в том числе территориально довольно сильно удаленной от основных корпоративных серверов. Fibre Channel - это стандарт последовательных соединений, предназначенных для высокоскоростных коммуникаций между серверами, накопителями, рабочими станциями и концентраторами и коммутаторами. Отметим, что этот интерфейс практически универсален, он используется не только для подключения отдельных накопителей и хранилищ данных.

     Когда появились первые сети, призванные объединить компьютеры для совместной работы, удобным и эффективным оказалось приблизить ресурсы к рабочим группам. Таким образом, в попытке минимизировать сетевую нагрузку накопители информации были равномерно разделены между множеством серверов и настольных компьютеров. В сети одновременно существуют два канала передачи данных: собственно сеть, по которой идет обмен между клиентами и серверами, и канал, по которому происходит обмен данными между системной шиной компьютера и устройством хранения, это может быть канал между контроллером и жестким диском или между RAID-контроллером и внешним дисковым массивом.

Информация о работе Хранилища данных