Автор работы: Пользователь скрыл имя, 16 Декабря 2013 в 16:30, статья
XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.
ОБЗОР СИСТЕМ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТА
Направление бакалавриата «Прикладная информатика», 4 курс
Научный руководитель доцент,
XXI век – век транснациональных корпораций, информационных технологий, высокоскоростного мобильного интернета и модных гаджетов. У каждой уважающей себя компании есть хотя бы сайт-визитка, а то и несколько крупных информационных порталов. С каждым днём в интернете появляется всё больше и больше информации: кратких постов, фотографий, музыки и прочего контента. Многие из нас имеют несколько аккаунтов в социальных сетях.
Чтобы не быть голословными, представляем вам инфографику «Интернет за минуту в цифрах» [1].
Рис.1 Инфографика «Интернет за минуту в цифрах»
Найти в интернете специализированную
и актуальную информацию становится
всё тяжелее и тяжелее. Именно
тогда на первый план и выходят
системы автоматического
Кратко определим задачи извлечения знаний. К первой задаче относится определение, создание и развитие искусственного интеллекта (ИИ). Ко второй – развитие Data-mining. К третьей задаче относится выявление новой предметной области.
Остановимся подробнее на второй задаче.
Data-mining на практике:
Предприятия в сфере розничной торговли собирают подробную информацию обо всех покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Ниже приведены типичные задачи, решающиеся с помощью Data Mining в этой сфере:
• анализ покупательской корзины;
• исследование временных шаблонов;
• создание прогнозирующих моделей;
В банковском деле
используются достижения
• выявление мошенничества с кредитными карточками;
• сегментация клиентов;
• прогнозирование изменений клиентуры.
Методы Data Mining помогают более эффективно продвигать свои программы маркетинга и ценообразования компаниям в области телекоммуникаций. К типичных мероприятиям относятся:
• анализ записей о подробных характеристиках вызовов;
• выявление лояльности клиентов.
В течение многих лет страховые компании накапливают большой объем данных, тем самым представляя обширное поле деятельности для методов Data Mining:
• выявление мошенничества;
• анализ риска.
Существуют различные компании, занимающиеся разработкой систем автоматического извлечения знаний из текстов. Например, компания Netowl выпускает: Text Analytics Products, Entity Analytics Products; Attensity Text Analytics (Text Analytics). К отечественных компаниям относятся: RCO – Russian context Optimizer, которая специализируется на различных блоках (расширение, аналитика и обработка), и Ай-теко (Программный продукт – «Аналитический курьер»).
Большинство компаний, как
российские, так и зарубежные, занимаются
либо разработкой приложений для
системы автоматического
К возможностям этой системы относятся:
Но существенный минус этого продукта заключается в отсутствии демо-версий, спецификаций и полного набора модулей, и как следствие, отсутствие полного представления о данной системе.
На официальном сайте компаний АЙ-теко представлены некоторые компоненты программы, которые представлены на рис.2 и рис.3
Рис.2 Компонент автоматической коррекции орфографических ошибок
Рис.3 Компонент определения тональности текста
Источники:
[1] Электронный портал: http://www.droidnews.ru/
[2] Википедия- свободная энциклопедия. Электронный ресурс: http://ru.wikipedia.org/
[3] Официальный сайт компании Ай-теко. Электронный ресурс: http://www.i-teco.ru/
Информация о работе Обзор систем автоматического извлечения знаний из текста