Применение Data Mining для решения бизнес-задач

Автор работы: Пользователь скрыл имя, 02 Апреля 2013 в 11:54, реферат

Описание работы

Без применения технологии Data Mining задача решается сотрудниками банковского учреждения на основе их опыта, интуиции и субъективных представлений о том, какой клиент является благонадежным. По похожей схеме работают системы поддержки принятия решений и на основе методов Data Mining. Такие системы на основе исторической (ретроспективной) информации и при помощи методов классификации выявляют клиентов, которые в прошлом не вернули кредит.

Содержание работы

Применение Data Mining для решения бизнес-задач 2
Банковское дело 2
Страхование 4
Телекоммуникации 4
Электронная коммерция 5
Промышленное производство 5
Маркетинг 6
Розничная торговля 6
Фондовый рынок 7
Применение Data Mining в CRM 7
Исследования для правительства 8
Data Mining для научных исследований 9
Биоинформатика 9
Медицина 9
Фармацевтика 10
Молекулярная генетика и генная инженерия 10
Химия 10
Web Mining 11
Text Mining 13
Call Mining 14

Файлы: 1 файл

1.docx

— 39.85 Кб (Скачать файл)

По данным аналитического отчета Главного контрольного управления американского Конгресса, правительственные  ведомства США участвуют приблизительно в двухстах проектах на основе анализа  данных ( Data Mining ), собирающих разнообразную  информацию о населении. Более ста  из этих проектов направлены на сбор персональной информации (имена, фамилии, адреса e-mail, номера соцстрахования и удостоверений  водительских прав), и на основе этой информации осуществляют предсказания возможного поведения людей. Поскольку  в упомянутом отчете не приведена  информация о секретных отчетах, надо полагать, что общее число  таких систем значительно больше.

Несмотря на пользу, которую  приносят системы отслеживания, эксперты упомянутого управления, так же как  и независимые эксперты, предупреждают  о значительном риске, с которым  связаны подобные проекты. Причина  опасений - проблемы, которые могут  возникнуть при управлении и надзоре  за такими базами.

Data Mining для научных  исследований

Биоинформатика

Одна из научных областей применения технологии Data Mining - биоинформатика, направление, целью которого является разработка алгоритмов для анализа  и систематизации генетической информации. Полученные алгоритмы используются для определения структур макромолекул, а также их функций, с целью  объяснения различных биологических  явлений.

Медицина

Несмотря на консервативность медицины во многих ее аспектах, технология Data Mining в последние годы активно  применяется для различных исследований и в этой сфере человеческой деятельности. Традиционно для постановки медицинских  диагнозов используются экспертные системы, которые построены на основе символьных правил, сочетающих, например, симптомы пациента и его заболевание. С использованием Data Mining при помощи шаблонов можно разработать базу знаний для экспертной системы.

 

Фармацевтика

В области фармацевтики методы Data Mining также имеют достаточно широкое  применение. Это задачи исследования эффективности клинического применения определенных препаратов, определение  групп препаратов, которые будут  эффективны для конкретных групп  пациентов. Актуальными здесь также  являются задачи продвижения лекарственных  препаратов на рынок.

Молекулярная  генетика и генная инженерия

В молекулярной генетике и  генной инженерии выделяют отдельное  направление Data Mining, которое имеет  название анализ данных в микро-массивах (Microarray Data Analysis, MDA).

Некоторые применения этого  направления:

  • ранняя и более точная диагностика;
  • новые молекулярные цели для терапии;
  • улучшенные и индивидуально подобранные виды лечения;
  • фундаментальные биологические открытия.

Примеры использования Data Mining - молекулярный диагноз некоторых  серьезнейших заболеваний; открытие того, что генетический код действительно  может предсказывать вероятность  заболевания; открытие некоторых новых  лекарств и препаратов.

Основные понятия, которыми оперирует Data Mining в областях "Молекулярная генетика и генная инженерия" - маркеры, т.е. генетические коды, которые контролируют различные признаки живого организма.

На финансирование проектов с использованием Data Mining в рассматриваемых  сферах выделяют значительные финансовые средства.

Химия

Технология Data Mining активно  используется в исследованиях органической и неорганической химии. Одно из возможных  применений Data Mining в этой сфере - выявление каких-либо специфических особенностей строения соединений, которые могут включать тысячи элементов.

Далее мы рассмотрим технологии, в основу которых также положено понятие Mining или "добыча".

Web Mining

Web Mining можно перевести  как "добыча данных в Web". Web Intelligence или Web Интеллект готов  "открыть новую главу" в  стремительном развитии электронного  бизнеса. Способность определять  интересы и предпочтения каждого  посетителя, наблюдая за его поведением, является серьезным и критичным  преимуществом конкурентной борьбы  на рынке электронной коммерции.

Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным  клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного  посетителя или группы посетителей.

Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее  неизвестные знания и которые  в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.

Согласно таксономии Web Mining, здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining.

Web Content Mining подразумевает  автоматический поиск и извлечение  качественной информации из разнообразных  источников Интернета, перегруженных  "информационным шумом". Здесь  также идет речь о различных  средствах кластеризации и аннотировании  документов.

В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.

Подход, основанный на агентах (Agent Based Approach), включает такие системы:

  • интеллектуальные поисковые агенты (Intelligent Search Agents);
  • фильтрация информации / классификация;
  • персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

  • Harvest (Brown и др., 1994),
  • FAQ-Finder (Hammond и др., 1995),
  • Information Manifold (Kirk и др., 1995),
  • OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
  • ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах  данных (Database Approach), включает системы:

  • многоуровневые базы данных;
  • системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

  • W3QL (Konopnicki и Shmueli, 1995),
  • WebLog (Lakshmanan и др., 1996),
  • Lorel (Quass и др., 1995),
  • UnQL (Buneman и др., 1995 and 1996),
  • TSIMMIS (Chawathe и др.., 1994).

Второе направление Web Usage Mining подразумевает обнаружение закономерностей  в действиях пользователя Web-узла или их группы.

Анализируется следующая  информация:

  • какие страницы просматривал пользователь;
  • какова последовательность просмотра страниц.

Анализируется также, какие  группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие  составляющие:

  • предварительная обработка;
  • операционная идентификация;
  • инструменты обнаружения шаблонов;
  • инструменты анализа шаблонов.

При использовании Web Mining перед  разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных  данных о конкретном клиенте, система  накапливает определенные знания о  нем и может рекомендовать  ему, например, определенные наборы товаров  или услуг. На основе информации о  всех посетителях сайта Web-система  может выявить определенные группы посетителей и также рекомендовать  им товары или же предлагать товары в рассылках.

Задачи Web Mining можно подразделить на такие категории:

  • Предварительная обработка данных для Web Mining.
  • Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
  • Анализ полученного знания.

Text Mining

Text Mining охватывает новые  методы для выполнения семантического  анализа текстов, информационного  поиска и управления. Синонимом  понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний  в тексте).

В отличие от технологии Data Mining, которая предусматривает  анализ упорядоченной в некие  структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.

Программы, реализующие эту  задачу, должны некоторым образом  оперировать естественным человеческим языком и при этом понимать семантику  анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки  в строке.

 

 

Call Mining

По словам Энн Беднарц, "добыча звонков" может стать  популярным инструментом корпоративных  информационных систем.

Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining. Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами  и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в  обращениях клиентов.

Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.

Примером реализации первого  подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система  преобразования речи, затем следует  ее анализ, в ходе которого в зависимости  от содержания разговоров формируется  статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.

Пример реализации второго  подхода - фонетического анализа - продукция  компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие  элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.

Аналитики отмечают, что  за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что  менеджеры высшего звена компаний, работающих в различных сферах, в  т.ч. в области финансов, мобильной  связи, авиабизнеса, не хотят тратить  много времени на прослушивание  звонков с целью обобщения  информации или же выявления каких-либо фактов нарушений.

По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование  этих технологий повышает оперативность  и снижает стоимость обработки  информации".

Типичная инсталляция  продукции от разработчика Nexidia обходится  в сумму от 100 до 300 тыс. долл. Стоимость  внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.

По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо  более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.

 


Информация о работе Применение Data Mining для решения бизнес-задач