Обзор систем автоматического извлечения знаний из текста

Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 16:30, статья

Описание работы

XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.

Файлы: 1 файл

Статья.docx

— 696.67 Кб (Скачать файл)

ОБЗОР СИСТЕМ АВТОМАТИЧЕСКОГО  ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТА

Направление бакалавриата «Прикладная информатика», 4 курс

Научный руководитель доцент,

XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.

Чтобы не быть голословными, представляем вам инфографику «Интернет  за минуту в цифрах» [1].

 

Рис.1 Инфографика «Интернет за минуту в цифрах»

 

Найти в интернете специализированную и актуальную информацию становится всё тяжелее и тяжелее. Именно тогда на первый план и выходят  системы автоматического извлечения знаний из текстов. Эти системы помогают нам за короткие сроки найти и понять интересующую информацию.

 Кратко определим задачи  извлечения знаний. К первой задаче относится определение, создание и развитие искусственного интеллекта (ИИ). Ко второй – развитие Data-mining. К третьей задаче относится выявление новой предметной области.

Остановимся подробнее на второй задаче.

Data-mining на практике:

  • Розничная торговля

Предприятия в сфере розничной торговли собирают подробную информацию обо всех покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Ниже приведены типичные задачи, решающиеся с помощью Data Mining в этой сфере:

• анализ покупательской корзины;

• исследование временных шаблонов;

• создание прогнозирующих моделей;

  • Банковское дело

 В банковском деле  используются достижения технологии  Data Mining для решения следующих задач:

• выявление мошенничества  с кредитными карточками;

• сегментация клиентов;

• прогнозирование изменений  клиентуры.

 

  • Телекоммуникации

Методы Data Mining помогают более эффективно продвигать свои программы маркетинга и ценообразования компаниям в области телекоммуникаций. К типичных мероприятиям относятся:

• анализ записей о подробных  характеристиках вызовов;

• выявление лояльности клиентов.

  • Страхование

В течение многих лет страховые компании накапливают большой объем данных, тем самым представляя обширное поле деятельности для методов Data Mining:

• выявление мошенничества;

• анализ риска.

 

Существуют различные компании, занимающиеся разработкой систем автоматического извлечения знаний из текстов. Например, компания Netowl выпускает: Text Analytics Products, Entity Analytics Products; Attensity Text Analytics (Text Analytics). К отечественных компаниям относятся: RCO – Russian context Optimizer, которая специализируется на различных блоках (расширение, аналитика и обработка), и Ай-теко (Программный продукт – «Аналитический курьер»).

Большинство компаний, как  российские, так и зарубежные, занимаются либо разработкой приложений для  системы автоматического извлечения знаний, либо расширением этих систем. «Аналитический курьер» является наиболее мощным и полным программным продуктом в этом плане. 

К возможностям этой системы  относятся:

  • глобальный тематический мониторинг Интернет-пространства, хранение сообщений в «облаке Big Data»;
  • оперативный анализ любых объектов информационного пространства системы через несколько секунд после поступления документов в систему;
  • формирование конвейеров анализа проблем из визуальных методов аналитической обработки, применяемых к результату поиска;
  • семантический анализ текста, тональность (имиджа, высказываний) об объектах.
  • мониторинг социальных медиа;
  • обработка запросов на естественном языке;
  • тематическое рубрицирование документов;
  • кросс-языковой поиск;
  • выявление ключевых тем документа;
  • ведение профессиональных библиотек пользователей и поиск;
  • автоматическое создание аннотаций. [3]

Но существенный минус этого продукта заключается в отсутствии демо-версий, спецификаций и полного набора модулей, и как следствие, отсутствие полного представления о данной системе.

 

На официальном сайте компаний АЙ-теко представлены некоторые компоненты программы, которые представлены на рис.2 и рис.3

Рис.2 Компонент автоматической коррекции орфографических ошибок

 

Рис.3 Компонент определения тональности текста

 

Источники:

[1] Электронный портал: http://www.droidnews.ru/

[2] Википедия- свободная  энциклопедия. Электронный ресурс: http://ru.wikipedia.org/

[3] Официальный сайт компании  Ай-теко. Электронный ресурс: http://www.i-teco.ru/


Информация о работе Обзор систем автоматического извлечения знаний из текста