Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных

Автор работы: Пользователь скрыл имя, 06 Июня 2013 в 10:27, автореферат

Описание работы

Актуальность исследования. Хранилище данных – это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Впервые концепция информационных систем с хранилищем данных была предложена специалистами фирмы IBM. Чрезвычайная сложность и, как следствие, высокая стоимость таких систем до середины 90-х годов XX века препятствовали их коммерческому внедрению. Основной вклад в становление технологии создания хранилищ данных внесли Барри Девлин, Уильям Инмон и Ральф Кимбал. В России разработкой и внедрением хранилищ данных занимается ряд компаний, таких как Intersoft Lab, Data Integration Software, РДТЕХ, Tomik, Трисофт, РЕЛЭКС и Аналитические технологии.

Файлы: 1 файл

Автореферат.docx

— 205.03 Кб (Скачать файл)

Рис. 4. Геометрическая интерпретация пространства различий

Для определения расстояния между реквизитами используем разработанные ранее классификаторы.

Обычно в факторном  пространстве используют метрику Минковского, согласно которой расстояние между объектами вычисляется по формуле

,                                                  (10)

где – t-я координата j-го объекта, а p – константа Минковского.

Для использования при идентификации объектов нечисловой природы перепишем метрику Минковского в следующем виде:

,                                                (11)

где O1t и O2t – значение t-го реквизита объектов O1 и O2 соответственно.

Необходимым условием идентичности объектов является попадание  вычисленной метрики d в доверительный интервал, который на рис. 4 изображен в виде сферы. При использовании формул (8), (11), два объекта идентичны, если d ≤ 1.

Достаточным условием идентичности будем считать попадание в  доверительный интервал с диаметром 0,5 любых двух реквизитов, имеющих идентификационные веса, равные 1, из табл. 4.

Отсортируем реквизиты по уменьшению сначала идентификационных весов, затем частоты появления уникальных значений. В результате получается оптимальный порядок сравнения реквизитов, что совместно с критерием достаточности позволяет достигнуть минимальных вычислительных затрат.

В четвертой главе описана реализация разработанных в рамках диссертационной работы методов, проведено сравнение полученных алгоритмов с традиционными, используемыми для решения подобных задач.

При решении практической задачи построения хранилища разработанный  алгоритм показал устойчивость к «шумам» в данных.

На языке PL/SQL создан пакет IDB, который включает набор процедур и функций для нечислового сравнения строк, проверки корректности контрольной суммы в ИНН, а также некоторые средства для отслеживания текущего состояния процесса интеграции. Для ускорения процесса идентификации некоторые особо требовательные к процессорному времени процедуры и функции реализованы на языке C++.

Апробация разработанного алгоритма  идентификации производилась на сервере BULL Express 5800 со следующими техническими характеристиками: Dual Pentium III Xeon 800MHz, 512 MB RAM, 5x17GB SCSI HDD, объединенных в один дисковый массив (RAID level 5) с помощью аппаратного RAID контроллера Mulex (32MB cache). Используемые БД, включая хранилище данных, находились на одном физическом сервере под управлением СУБД ORACLE 8.1.7 Enterprise Edition, операционная система Windows 2000 Advanced Server.

Проведенные эксперименты показали скорость идентификации, равную 500 000 пар записей в час. В случае острой необходимости, можно ускорить процесс идентификации, применив фильтры в виде нечетких индексов Russian Context Optimizer от компании "Гарант-Парк-Интернет". Фильтры позволяют сравнивать текущий объект не со всеми объектами в хранилище, а только с теми, которые каким-то параметром похожи не него, например, по наименованию. Однако не рекомендуется прибегать к данному приему в силу того, что в полях, по которым производится фильтрация, могут быть искаженные данные. В этом случае возможно исключение сравнения объекта с другим объектом, которые в идеале должны быть идентифицированы как равные. Эксперименты показали, что при использовании фильтров полученный результат практически не отличается от полного перебора обоих БД. Такой подход можно использовать для быстрой интеграции БД, когда необходим срочный результат. Затем можно запустить алгоритм более глубокого анализа БД и исправить ошибки в случае их обнаружения.

ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы:

  1. Проведен анализ свойств объектов нечисловой природы, методов обработки символьной информации, а также принятия решений по идентификации объектов, что позволило выявить ключевые направления исследования и создать комплексный подход к предварительной обработке и идентификации таких объектов.
  2. Предложены модели представления и методы обработки различных реквизитов объектов баз данных и реализующие их алгоритмы наиболее часто используемых реквизитов с учетом их структуры и семантики. Созданы классификаторы формирования как символьного, так и регулярного результатов сравнения реквизитов.
  3. Созданы методы идентификации объектов нечисловой природы, построенные на основе экспертных оценок и вывода с помощью обработки совокупности результатов сравнения реквизитов разработанными классификаторами.
  4. Разработанные методы идентификации объектов улучшают результаты идентификации объектов в БД с опечатками и пропусками данных, что позволяет создавать надежные хранилища, интеграция информации в которых основана на корректных выборках данных по объектам, находящимся в двух и более БД, производить поиск дублированных объектов в одной БД.
  5. Достоверность и практическая ценность результатов, полученных в диссертационном исследовании, подтверждена актом внедрения в работу УФСНП РФ по Саратовской области.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

  1. Солодков, А. Ю. Алгоритмы идентификации объектов в базах данных / А. Ю. Солодков // Системная интеграция. - 2004. - № 12 (90). - C. 52-56.
  2. Солодков, А. Ю. Анализ сложно - структурированных строковых полей в базах данных / А. Ю. Солодков // Сложные системы. Анализ, моделирование, управление : cб. науч. ст. Всерос. науч. конф. / СГТУ. - Саратов, 2005. - С. 84-85.
  3. Солодков, А. Ю. Идентификация сложных лингвистических объектов в базе данных / Р. Н. Каримов, Д. В. Елисеев, А. Ю. Солодков // Электротехнические комплексы и силовая электроника. Анализ, синтез и управление : межвуз. науч. сб. / СГТУ. - Саратов, 2003. - С. 30-34.
  4. Солодков, А. Ю. Идентификация сложных объектов нечисловой природы в СУБД с наличием ошибок и пропусков данных / А. Ю. Солодков // Наукоёмкие технологии и интеллектуальные системы : cб. науч. ст. V молодёжной науч.-техн. конф. / МГТУ им. Баумана. – М., 2003. - Ч. 2. - С. 155-157.
  5. Солодков, А. Ю. Построение информационно – поисковых систем с нечётким шаблоном поиска / Р. Н. Каримов, Д. В. Елисеев, А. Ю. Солодков // Технологии Интернет – на службу обществу : сб. науч. ст. Всерос. науч.-практ. конф. / СГТУ. - Саратов, 2003. - С. 50-52.
  6. Солодков, А. Ю. Применение фреймовых моделей для автоматической обработки символьной информации / А. Ю. Солодков, А. А. Бойков // Электротехнические комплексы и силовая электроника. Анализ, синтез и управление : межвуз. науч. сб. / СГТУ. - Саратов, 2004. - С. 67-70.
  7. Солодков, А. Ю. Распознавание нечисловых объектов в базах данных с учетом ошибок при вводе информации / Р. Н. Каримов, А. Ю. Солодков // Математические методы в технике и технологиях : cб. науч. ст. XVI Междунар. науч. конф. / РГАСХМ. – Ростов н/Д, 2003. - Т. 8. - С. 128-129.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

СОЛОДКОВ Алексей Юрьевич

 

 

 

МАТЕМАТИЧЕСКИЕ МОДЕЛИ И  МЕТОДЫ 
ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ 
В ХРАНИЛИЩАХ ДАННЫХ

 

Автореферат

 

Ответственный за выпуск Д. А. Кинцель

 

Корректор Л. А. Скворцова

 

Лицензия ИД № 06268 от 14.11.01

 

Подписано в печать 26.09.06

 

Формат 60´84  1/16

Бум. тип.

Усл.-печ.л.  0,93(1,0)

Уч.-изд. л. 0,9

Тираж 100 экз.

Заказ  389

Бесплатно


Саратовский государственный технический  университет

410054, г. Саратов, ул. Политехническая, 77

Отпечатано в РИЦ СГТУ, 410054, г. Саратов, ул. Политехническая, 77




Информация о работе Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных