Автор работы: Пользователь скрыл имя, 06 Июня 2013 в 10:27, автореферат
Актуальность исследования. Хранилище данных – это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Впервые концепция информационных систем с хранилищем данных была предложена специалистами фирмы IBM. Чрезвычайная сложность и, как следствие, высокая стоимость таких систем до середины 90-х годов XX века препятствовали их коммерческому внедрению. Основной вклад в становление технологии создания хранилищ данных внесли Барри Девлин, Уильям Инмон и Ральф Кимбал. В России разработкой и внедрением хранилищ данных занимается ряд компаний, таких как Intersoft Lab, Data Integration Software, РДТЕХ, Tomik, Трисофт, РЕЛЭКС и Аналитические технологии.
Рис. 4. Геометрическая интерпретация пространства различий
Для определения расстояния между реквизитами используем разработанные ранее классификаторы.
Обычно в факторном пространстве используют метрику Минковского, согласно которой расстояние между объектами вычисляется по формуле
,
где – t-я координата j-го объекта, а p – константа Минковского.
Для использования при идентификации объектов нечисловой природы перепишем метрику Минковского в следующем виде:
, (11)
где O1t и O2t – значение t-го реквизита объектов O1 и O2 соответственно.
Необходимым условием идентичности объектов является попадание вычисленной метрики d в доверительный интервал, который на рис. 4 изображен в виде сферы. При использовании формул (8), (11), два объекта идентичны, если d ≤ 1.
Достаточным условием идентичности будем считать попадание в доверительный интервал с диаметром 0,5 любых двух реквизитов, имеющих идентификационные веса, равные 1, из табл. 4.
Отсортируем реквизиты по уменьшению сначала идентификационных весов, затем частоты появления уникальных значений. В результате получается оптимальный порядок сравнения реквизитов, что совместно с критерием достаточности позволяет достигнуть минимальных вычислительных затрат.
В четвертой главе описана реализация разработанных в рамках диссертационной работы методов, проведено сравнение полученных алгоритмов с традиционными, используемыми для решения подобных задач.
При решении практической задачи построения хранилища разработанный алгоритм показал устойчивость к «шумам» в данных.
На языке PL/SQL создан пакет IDB, который включает набор процедур и функций для нечислового сравнения строк, проверки корректности контрольной суммы в ИНН, а также некоторые средства для отслеживания текущего состояния процесса интеграции. Для ускорения процесса идентификации некоторые особо требовательные к процессорному времени процедуры и функции реализованы на языке C++.
Апробация разработанного алгоритма идентификации производилась на сервере BULL Express 5800 со следующими техническими характеристиками: Dual Pentium III Xeon 800MHz, 512 MB RAM, 5x17GB SCSI HDD, объединенных в один дисковый массив (RAID level 5) с помощью аппаратного RAID контроллера Mulex (32MB cache). Используемые БД, включая хранилище данных, находились на одном физическом сервере под управлением СУБД ORACLE 8.1.7 Enterprise Edition, операционная система Windows 2000 Advanced Server.
Проведенные эксперименты показали скорость идентификации, равную 500 000 пар записей в час. В случае острой необходимости, можно ускорить процесс идентификации, применив фильтры в виде нечетких индексов Russian Context Optimizer от компании "Гарант-Парк-Интернет". Фильтры позволяют сравнивать текущий объект не со всеми объектами в хранилище, а только с теми, которые каким-то параметром похожи не него, например, по наименованию. Однако не рекомендуется прибегать к данному приему в силу того, что в полях, по которым производится фильтрация, могут быть искаженные данные. В этом случае возможно исключение сравнения объекта с другим объектом, которые в идеале должны быть идентифицированы как равные. Эксперименты показали, что при использовании фильтров полученный результат практически не отличается от полного перебора обоих БД. Такой подход можно использовать для быстрой интеграции БД, когда необходим срочный результат. Затем можно запустить алгоритм более глубокого анализа БД и исправить ошибки в случае их обнаружения.
ЗАКЛЮЧЕНИЕ
Основные результаты диссертационной работы:
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
СОЛОДКОВ Алексей Юрьевич
МАТЕМАТИЧЕСКИЕ МОДЕЛИ И
МЕТОДЫ
ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
В ХРАНИЛИЩАХ ДАННЫХ
Автореферат
Ответственный за выпуск Д. А. Кинцель
Корректор Л. А. Скворцова
Лицензия ИД № 06268 от 14.11.01
Подписано в печать 26.09.06 |
Формат 60´84 1/16 | |
Бум. тип. |
Усл.-печ.л. 0,93(1,0) |
Уч.-изд. л. 0,9 |
Тираж 100 экз. |
Заказ 389 |
Бесплатно |
Саратовский государственный технический университет
410054, г. Саратов, ул. Политехническая, 77
Отпечатано в РИЦ СГТУ, 410054, г. Саратов, ул. Политехническая, 77