Автор работы: Пользователь скрыл имя, 06 Мая 2013 в 16:34, курсовая работа
Отметим, что в настоящее время не существует полной теории, описывающей законы порождения связных осмысленных текстов. Как следствие отсутствуют в общем случае методы порождения текстов, не отличимых от созданных человеком. Тем не менее, известны многие закономерности, характерные естественным текстам:
- единство стиля;
- следование законом жанра;
- локальная связность;
- глобальная тематическая связность и т.п.
Цепи Маркова позволяют моделировать лишь локальную связность текста и общие тематические характеристики.
Основная идея настоящей работы состоит в том, чтобы с учетом статистических характеристик стилистических и жанровых особенностей естественных текстов порождать неестественные тексты, обладающие локальной связностью.
Введение 5
Задание и исходные данные в соответсвии с номером варианта………… 6
1) Обобщённая структурная схема системы связи для передачи дискретных сообщений …………………………………………………………………………….7
2) Расчёт информационных характеристик источник .……………………..9
3) Построение кода для сообщений источника……………………………..11
4) Статистические характеристики закодированных сообщени……… ….13
5) Оптимальное по минимуму средней ошибки правило восстановления символа при приёме в условиях сильно зашумленного сигнала…………………15
6) Ошибки в передаче сообщений и вероятность правильного приема последовательности сообщений по слабо зашумленному сигналу………………17
Заключение…………………………………………………………………….19
Список использованных источников………………………………………
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Омский государственный технический университет
Кафедра «Прикладная математика и фундаментальная информатика»
Специальность 010503 – «Математическое обеспечение и администрирование информационных систем»
КУРСОВАЯ РАБОТА
на тему:
______________________________
______________________________
______________________________
по дисциплине
______________________________
Студент Лейс Евгений Александрович группы МО-310
А.Г. Купш
___________________________
(Подпись, дата)
___________________________
(Подпись, дата)
Кафедра_______________________ |
||
Специальность_________________ |
на курсовое проектирование
по дисциплине ______________________________
(Ф.И.О. полностью)
1. Тема проекта _________________
______________________________
2. Срок сдачи студентом
3. Исходные данные к проекту
______________________________
______________________________
4. Содержание проекта (работы): ______________________________
4.1. Разделы пояснительной записки
(перечень подлежащих
4.2. Перечень графического
5. Основная рекомендуемая
______________________________
Зав. кафедрой ______________________________
(подпись, дата)
(подпись, дата)
Студент ______________________________
(подпись, дата)
Реферат
Отчет 26с, 5 рис., 3 прил., 7 источника
ГЕНЕРАТОР ТЕКСТА, ДОРВЕЙ, ЦЕПЬ МАРКОВА, СПАМ, СННИПЕТ, ПОИСКОВАЯ СИСТЕМА
Данная работа посвящена разработке средств для массового порождения неестественных текстов. В работе предлагается теоретическая обобщенная модель текстов, порожденных с помощью цепей Маркова.
Цель работы – разработать приложение для создания большого объема текста на основе цепи Маркова .
Содержание
Введение 5
Задание и исходные данные в соответсвии с номером варианта………… 6
1) Обобщённая структурная схема системы
связи для передачи дискретных сообщений ……………………………………………………
2) Расчёт информационных характеристик источник .……………………..9
3) Построение
кода для сообщений источника……
4) Статистические характеристики закодированных сообщени……… ….13
5) Оптимальное по минимуму средней ошибки правило восстановления символа при приёме в условиях сильно зашумленного сигнала…………………15
6) Ошибки в передаче сообщений и вероятность правильного приема последовательности сообщений по слабо зашумленному сигналу………………17
Заключение……………………………………………………
Список использованных источников………………………………………… 20
Приложение А Код программы……………………………………………….
Приложение Б Входной текст…………………………………………………22
Приложение В Сгенерированный текст………………………………………23
Введение
В связи с большим количеством информации в сети Интернет пользователи чаще всего используют веб поиск для нахождения интересующих их данных. В настоящее время одной из основных проблем информационного поиска является распространение поискового спама.
Поисковый спам создается в результате намеренных действий, направленных на завышение оценки страницы в поисковой системе, по сравнению с ее истинной ценностью.
В соответствии с современными оценками поисковый спам составляет около 22% всего содержимого сети Интернет. На настоящий момент поисковый спам остается эффективным методом выведения сайта на верхние позиции в выдаче поисковых систем. Поисковый спам ухудшает качество поиска и мешает нормальной работе поисковых систем.
Одним из распространенных способов автоматического создания большого количества текстов является генерация текстов на основе цепей Маркова. При использовании генерации текстов на основе цепей Маркова сначала на отобранных текстах производится обучение, затем можно породить большое количество в целом бессмысленных, но локально связных текстов.
Учитывая то, что в качестве исходных текстов часто берутся релевантные определенной тематике документы, то и результаты генерации текстов также отражают статистические тематические характеристики.
Отметим, что в настоящее время не существует полной теории, описывающей законы порождения связных осмысленных текстов. Как следствие отсутствуют в общем случае методы порождения текстов, не отличимых от созданных человеком. Тем не менее, известны многие закономерности, характерные естественным текстам:
- единство стиля;
- следование законом жанра;
- локальная связность;
- глобальная тематическая связность и т.п.
Цепи Маркова позволяют моделировать лишь локальную связность текста и общие тематические характеристики.
Основная идея настоящей работы состоит в том, чтобы с учетом статистических характеристик стилистических и жанровых особенностей естественных текстов порождать неестественные тексты, обладающие локальной связностью.
1 Методы порождения текстов
Создание поискового спама сопряжено с созданием большого количества текстов для автоматического наполнения сайтов. В настоящий момент существует несколько подходов к созданию текстов для спам-сайтов:
- Создание текстов вручную;
- Копирование текстов из других источников;
- Автоматическая генерация текстов;
- Автоматическая
модификация существующих
Создание
текстов вручную является трудоемким
и дорогостоящим процессом, поэтому
редко применяется для
В итоге на данный момент наиболее эффективными являются методы, которые позволяют автоматически получать уникальные тексты.
Генератор текста — компьютерная программа, способная генерировать последовательности символов, внешне похожие на текст, но при этом, как правило, лишённые смысла. Такие тексты не представляют никакой ценности для пользователей поиска. При генерации текста спамеры также стараются оптимизировать его под некоторый набор запросов, чтобы повысить вероятность попадания сайта с этим содержимым в выдачу поисковой системы.
Распространенным видом генераторов текста являются генераторы текста на основе цепей Маркова.
Цепью Маркова с дискретным временем называется последовательность случайных величин, для которой условное распределение каждой величины зависит только от значения предыдущих величин. Цепь Маркова описывается множеством значений случайных величин, которое называется пространством состояний; а также матрицей переходных вероятностей между состояниями. Матрица переходных состояний определяет вероятность перехода в следующее состояние, с учетом текущего. В случае если матрица переходных вероятностей не зависит от шага, она называется однородной, именно однородные матрицы чаще всего применяются для порождения текстов.
Когда цепи
Маркова применяются для
Во-первых, порожденный текст содержит ту же лексику, что и исходный образец. Это позволяет использовать в качестве образца существующие тексты, которые высоко ранжируются поисковыми системами, например, брать образцы текстов из сниппетов поисковых систем, и получать на выходе тексты, оптимизированные под конкретные запросы.
Во-вторых, порожденный текст является с высокой вероятностью уникальным. Это затрудняет обнаружение таких текстов методами обнаружения дубликатов.
Применение автоматических генераторов текстов на основе цепей Маркова часто используется в таком виде спама как дорвеи. Функция дорвея перенаправить пользователя на некоторый целевой сайт, при этом само содержимое такого сайта никакой ценности для пользователя не несет. Дорвеи должны попадать в выдачу по популярным запросам, поэтому эффективное порождения такого вида спама может увеличить количество спама в выдаче поисковых систем.
Пусть k – порядок цепи Маркова, тогда элемент матрицы переходов для этого алгоритма не равен нулю, только если предыдущие k слов для двух состояний совпадают. Введем сходства на множестве состояний. Два состояния схожи по k предыдущим, если предыдущие k слов для этих двух состояний совпадают.
Очевидно, отношение сходства по k предыдущим состояниям является отношением эквивалентности и множество состояний разделяется на классы эквивалентности T1k ,..,TkNk .
Обозначим P(T) - множество состояний, непосредственно предшествующих состояниям из множества T. Тогда вероятность перехода между состояниями может быть выражена через их классы эквивалентности:
;
Пример:
для примера возьмем детский стишок:
Из-за леса, из-за гор
едет дедушка Егор:
сам на лошадке,
жена на коровке,
дети на телятках,
внуки на козлятках.
Разберем текст на звенья и связки:
из-за [леса, гор]
леса [из-за]
гор [едет]
едет [дедушка]
дедушка [Егор]
Егор [сам]
сам [на]
на [лошадке, коровке, телятках, козлятках]
лошадке [жена]
жена [на]
коровке [дети]
дети [на]
телятках [внуки]
внуки [на]
Звенья
в этом списке представляют собой
уникальные слова из текста, а в
квадратных скобках перечислены
связи - список слов, которые могут
располагаться после этого
При генерации текста из списка звеньев на первой итерации выбирается случайное звено, определяются его связи, из списка связей выбирается случайная и прини -мается уже как новое звено. Затем действие повторяется до достижения нужного размера текста. В результате, например, может получиться что-то подобное:
Информация о работе Создание большого объема текста на основе цепи Маркова