Анализ методов автоматической классификации текстов

Реферат, 20 Сентября 2013, автор: пользователь скрыл имя

Описание работы

В настоящее время можно выделить два принципиально разных подхода к классификации текстов:
экспертный подход – правила отнесения документа к рубрике задаются экспертами;
подход, основанный на какой-либо математической модели.
Основное преимущество экспертного подхода состоит в очень высоком качестве классификации. Но при большом количестве информации данный метод перестает быть эффективным. Поэтому возникает необходимость в применении автоматической классификации документов.

Скачать архив (14.18 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ.doc

— 51.50 Кб (Скачать файл)

АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ

В настоящее время можно выделить два принципиально разных подхода к классификации текстов:

экспертный подход – правила отнесения документа к рубрике задаются экспертами;
подход, основанный на какой-либо математической модели.

Основное преимущество экспертного подхода состоит в очень высоком качестве классификации. Но при большом количестве информации данный метод перестает быть эффективным. Поэтому возникает необходимость в применении автоматической классификации документов.

В ходе изучения и анализа работ[дисс_агеев, абмс], я пришел к выводу о том, что для автоматической рубрикации документов применяется четыре основных подхода:

нейросетевой;
статистический;
векторный;
деревья решений.

Нейронные сети.

Статистический подход.
Векторный подход.

Данный подход заключается в преобразовании документов в вектора. Координатами векторов являются веса термов. Согласно [дисс_агеев], вес терма вычисляется по следующей формуле:

(номер)

где - вес i-го слова, - частота встречаемости i-го слова в данном документе (term frequency), - логарифм отношения количества всех документов в коллекции к количеству документов, в которых встречается i-ое слово (inverse document frequency).

Кроме того, в [дисс_агеев] обоснован такой выбор формулы следующим образом:

множитель учитывает следующий факт: что чем чаще встречается слово в документе, тем оно важнее;
множитель учитывает следующий факт: если слово встречается в большей части документов, то оно не является существенным критерием принадлежности документа рубрике и его вес следует понизить;
для учета различной длины текстов в документах, веса слов нормализуются.

В данном подходе можно выделить два метода автоматической классификации:

метод k-ближайших соседей (k-nearest neighbors, k-NN);
классификатор Роше (Rocchio classifier).

При использовании метода k-ближайших соседей, каждый документ d сравнивается со всеми документами из обучающей выборки (в какой части написать, что это такое?). Согласно [дисс_агеев], для каждого документа e из обучающей выборки находится расстояние до документа d как косинус угла между векторами признаков:

(номер)

После вычисления расстояний, из обучающей выборки выбираются k документов, ближайших к документу d. В [дисс_агеев] значение параметра k предлагается выбирать в интервале от 1 до 100. В работе же [кт_лиф] значение параметра k предлагается выбирать в интервале от 20 до 50.

Далее для каждой рубрики вычисляется количество документов из k документов, отобранных на предыдущем шаге [дисс_агеев]:

(формула)

Рубрика, у которой величина s больше, чем у других, будет приписана документу d.

В работах [tj_tc] и [80] приводятся хорошие показатели данного метода. Однако в работе [ila_sd] приводятся результаты, которые хуже, чем у статистических методов и деревьев решений.

В [дисс_агеев] говорится о том, что данный метод требует больших вычислительных затрат на этапе рубрикации. Классификатор Роше – еще один из способов автоматической классификации текстов, основанный на векторном представлении документа. В нем используется профайл для каждой из категорий. Согласно [кт_лиф], профайл – это список термов, наличие или отсутствие которых наиболее хорошо отличают категорию от других категорий. Таким образом, новый документ сравнивается не с каждым документом из обучающей выборки, а с профайлом каждой категории. Профайл для категории рассчитывается по следующей формуле [кт_лиф]:

(номер)

где ….

Преимущество данного метода состоит в том, что, при необходимости, можно быстро пересчитать профайлы для категорий. В [tj_tc] показано, что качество классификации данного метода немного хуже, чем у k-ближайших соседей.

В ходе переписки с Михаилом Сергеевичем Агеевым, был выявлен тот факт, что для рубрикации текстов небольшой длины (например, текст объявления) может не хватить стандартного векторного представления по словам и придется учитывать какую-либо специфику: расширение по синонимам или учет контекст появления текста. Это может существенно усложнить реализацию поставленной задачи.

Анализ методов автоматической классификации текстов

Описание работы

Файлы: 1 файл

АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ.doc

Информация о работе Анализ методов автоматической классификации текстов

Связанные документы

Классификация моделей и методов системного анализа

Классификация методов экономического анализа

Методы анализа риска

Метод анализа иерархии

Методы финансового анализа

Химические методы анализа

Похожие темы

Анализ текста

Метод анализа предприятия

Методы финансового анализа

Методы экономического анализа

Анализ методов оценки

Методы статистического анализа