Выявление ассоциативных правил в Deductor

Автор работы: Пользователь скрыл имя, 20 Ноября 2013 в 17:26, лабораторная работа

Описание работы

Deductor Academic обладает широким функционалом. Рассмотрим выявление ассоциативных правил. Эта задача широко востребована в маркетинге, при формировании торговых рядов, витрин в магазинах (супер- и мегамаркетах). Как правило, хозяйственные товары находятся в одной части торгового зала, а продовольственные - в другой. Это сделано для того, чтобы покупатель мог выбрать нужные ему товары одной категории не бегая по всему магазину туда-обратно. Таким образом, у покупателей выстраиваются ассоциативные правила. Эти правила логически понятны и легко определяются. Для эффективного марктеолога они являются источником продаж - правильно организовав выкладку товаров и их заказ у поставщиков можно значительно поднять продажи нужных товарных позиций.

Скачать архив (2.47 Мб) Сколько стоит заказать работу?

Файлы: 1 файл

Ассоциативные правила.docx

— 2.53 Мб (Скачать файл)

Лабораторная работа

Выявление ассоциативных правил в Deductor

Введение

Часть 1

Описание бизнес-задачи

Постановка задачи. Розничная сеть по продаже товаров бытовой химии поставила задачу анализа покупательских корзин для оптимизации размещения товаров на витринах и проведения кросс-продаж. Отдел маркетинга представил 5000 чеков, в которых отражены покупки, сделанные клиентами магазинов. Требуется:

предсказать, какие товары покупатели могут выбрать в зависимости от того, что уже есть в их корзинах;
выявить наиболее популярные товарные наборы, состоящие из более чем одного предмета.

Исходные данные. Представлены в файле Чеки.txt двумя полями — Номер транзакции и Товар. Поскольку номенклатура товаров бытовой химии очень разнообразна, решено ограничиться представлением товаров в обобщенной форме без торговых марок: порошки, моющие средства и т. д. (всего 37 наименований).

Используя алгоритм поиска ассоциативных правил, извлечем ассоциативные правила и проинтерпретируем их.

Выявление ассоциаций

В Deductor Studio для решения задач ассоциации используется обработчик Ассоциативные правила. Узел требует, чтобы на входе было два поля: идентификатор транзакции и элемент транзакции. Например, идентификатор транзакции — это номер чека или код клиента, а элемент — это наименование товара в чеке или услуга, заказанная клиентом.

ЗАМЕЧАНИЕ

Оба поля (идентификатор и элемент транзакции) должны быть дискретного вида.

В новом проекте в Deductor Studio импортируйте данные из текстового файла Чеки. txt. Для этого:

Щелкнув правой кнопкой мыши по объекту «Сценарии» выберите раздел «мастер импорта»

В разделе «Импорт текстового файла» зарузите файл Чеки.txt

Проверьте соответствие последующих окон со скриншотами, показанными ниже (после проверки каждого окна нажмите кнопку «Далее»).

Нажмите кнопку «Пуск» для обработки текстовой информации

При выборе средств отображения выберите «Таблица» и «Статистика»

Теперь к узлу импорта добавьте обработчик Ассоциативные правила. Для этого:

Щелкнув правой кнопкой мыши по объекту «Текстовой файл» выберите раздел «Мастер обработки»

В появившемся списке в разделе Data Mining выберите инструмент «Ассоциативные правила».

Поле ID сделайте идентификатором транзакции, a ITEM — ее элементом.

На следующем шаге настройте параметры алгоритма.

Здесь доступны следующие опции.

Минимальная и максимальная поддержка, % — ограничивают пространство поиска часто встречающихся предметных наборов. Эти границы определяют множество популярных наборов, или частых предметных наборов, из которых и будут создаваться ассоциативные правила (то есть поддержка определяет вероятность покупки набора продуктов состоящего из определенных элементов).

Минимальная и максимальная достоверность, % — в результирующий набор попадут только те ассоциативные правила, которые удовлетворяют условиям минимальной и максимальной достоверности (т.е. достоверность показывает с какой вероятностью один продукт будет куплен в дополнение к другому)

Максимальная мощность искомых часто встречающихся множеств — параметр ограничивает длину предметного набора. Например, при установке значения 4 шаг генерации частых наборов будет остановлен после получения множества 4-предметных наборов. В конечном итоге это позволяет избежать появления длинных ассоциативных правил, которые трудно интерпретируются.

Все настройки оставьте предлагаемыми по умолчанию.

Затем нажмите кнопку «Далее»

Нажатие кнопки Пуск запустит работу алгоритма поиска ассоциативных правил, по окончании которой справа в полях появится следующая информация:

Кол-во множеств — число частых наборов, удовлетворяющих заданным условиям минимальной поддержки и достоверности (91 набор);
Кол-во правил — число сгенерированных ассоциативных правил (найдено 17 правил).

Далее выбираете все доступные специализированные визуализаторы из разделов Data Mining и Табличные данные.

Все эти визуализаторы, кроме Что-если, отображают результаты работы алгоритма в различных формах.

Часто встречающиеся наборы в Deductor называются популярными. На вкладке Популярные наборы, как следует из названия, в виде списка отображается множество найденных популярных предметных наборов, которые можно отфильтровать и отсортировать. Например, задав в фильтре минимальное значение поддержки 6 % и отсортировав записи по ее убыванию, получим следующие 16 популярных наборов. Два из них имеют мощность 2, то есть содержат по 2 элемента.

На вкладке Дерево правил предлагается еще один удобный способ отображения множества ассоциативных правил. При построении дерева по условию на первом (верхнем) уровне находятся узлы с условиями, а на втором — узлы со следствием. В дереве, построенном по следствию, наоборот, на первом уровне располагаются узлы со следствием.

Справа от дерева расположен список правил, построенный по выбранному узлу дерева.

Для каждого правила отображаются поддержка, достоверность и лифт. Если дерево построено по условию, то вверху списка находится условие правила, а список состоит из его следствий. Тогда правила отвечают на вопрос: что будет при таком условии?

Если же дерево построено по следствию, то вверху списка отображается следствие правила, а список состоит из его условий. Эти правила отвечают на вопросы: что нужно для того, чтобы получилось заданное следствие, или какие товары нужно продать для того, чтобы продать товар из следствия?

Интерпретация ассоциативных правил

Теперь остановимся на наиболее важном этапе — интерпретации ассоциативных правил. Дело в том, что ассоциативные правила сами по себе, как результат работы некоторого алгоритма, еще не готовы к использованию. Их нужно проинтерпретировать, то есть понять, какие из ассоциативных правил представляют интерес, действительно ли правила отражают закономерности или, наоборот, являются артефактом. Это требует от аналитика тщательной работы и понимания предметной области, в которой решается задача ассоциации.

Все множество ассоциативных правил можно разделить на три вида.

Полезные правила содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений, приносящих выгоду.
Тривиальные правила содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, так как отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары — лидеры продаж. Практическая ценность таких правил крайне низка.
Непонятные правила содержат информацию, которая не может быть объяснена. Такие правила получаются на основе или аномальных значений, или глубоко скрытых знаний. Напрямую эти правила нельзя использовать для принятия решений, так как их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ. Варьируя верхний и нижний пределы поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила, генерируемые алгоритмом, принимают приближенный к реальности вид.

Значения верхнего и нижнего пределов сильно зависят от предметной области, поэтому не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.

Большая величина максимальной поддержки означает, что алгоритм будет находить правила, хорошо известные или же настолько очевидные, что в них нет никакого смысла. Поэтому ставить порог максимальной поддержки очень высоким (более 20 %) не рекомендуется.
Большинство интересных правил находится именно при низком значении порога поддержки, хотя слишком низкое значение ведет к генерации статистически необоснованных правил. Поэтому правила, которые кажутся интересными, но имеют низкую поддержку, нужно дополнительно анализировать, рассчитывая для них лифт.
Уменьшение порога достоверности приводит к увеличению количества правил. Значение минимальной достоверности не должно быть слишком низким, так как ценность правила с достоверностью 5 % чаще всего настолько мала, что это и правилом считать нельзя.
Правило с очень большой достоверностью (> 85-90 %) практической ценности в контексте решаемой задачи не имеет, так как товары, входящие в следствие, покупатель, скорее всего, уже приобрел.

Вернемся к задаче. Снова обратимся к вкладке Правила, где, помимо самих ассоциативных правил, приводятся их расчетные характеристики: поддержка, достоверность и лифт.

Например, правило № 3 кондиционер для белья —> стиральный порошок-автомат имеет S = 3,86 %; С = 84,95 % и L = 12,06. Это означает следующее.

Ожидаемая вероятность покупки набора кондиционер для белья + стиральный порошок-автомат равна 3,86 %.
Если клиент положил в корзину кондиционер для белья, то с вероятностью 84,95 % он купит и стиральный порошок-автомат.
Клиент, купивший кондиционер для белья, в 12,06 раза чаще выберет стиральный порошок-автомат, нежели любой другой товар.

Анализ правил позволяет прийти к выводу, что многие из них тривиальны, так как это лидеры продаж магазина (см. популярные наборы), хотя есть и интересные правила (например, средство от накипи —> чистящий порошок универсальный). И тот факт, что при достоверности 42-43 % встречаются тривиальные ассоциативные правила (например, мыло кусковое —> мыло жидкое), говорит о том, что можно найти интересные правила при меньших значениях достоверности.

Сделаем следующее:

запустим алгоритм с интервалом допустимой достоверности от 25 до 40%;

не будем рассматривать правила с лидерами продаж: это снова будут тривиальные правила.

В итоге получим как вариант следующие дополнительные правила.

Как видно, все эти правила можно назвать полезными: они неочевидны, но понятны и имеют высокий лифт.

Как компания может применять на практике результаты ассоциативного анализа? Перечислим лишь некоторые варианты:

осуществление кросс-продаж;
рациональное размещение совместно покупаемых товаров на полках;
применение ассоциативных правил совместно с ABC-анализом для выявления наиболее доходных товарных позиций.

Часть 2

Используя существующую базу данных и управляя значением достоверности при обработке информации, найдите 3, на ваш взгляд, полезных нетривиальных правила и занесите их в таблицу.

Обоснуйте свой выбор.

№	Условие	Следствие	Поддержка	Достоверность	Лифт
1
2
3

Тривиальные наборы – те, логика покупки которых ясна с первого взгляда.

Примеры тривиальных наборов:

Мыло кусковое – мыло жидкое
Освежитель воздуха – запасной баллон для освежителя воздуха

Пример поиска нетривиальных полезных наборов показан ниже.

Пример выполнения задания

Обработаем имеющуюся базу данных (чеки.txt) при минимальном значении достоверности равном 35, и максимальном – 45.

Получим следующие наборы:

В этом списке в качестве нетривиальных наборов можно отметить два, логика покупки которых покупателем не совсем понятна на первый взгляд:

№	Условие	Следствие	Поддержка	Достоверность	Лифт
1	Сода кальцинированная	Гель для туалетов	2,35	36	3,34
2	Салфетки бумажные	Средство для чистки плит	1,86	35,85	5,683

Как видно из таблицы, первый набор «Сода кальцинированная - Гель для туалетов» покупается в 2,35% (Поддержка) случаев, причем вероятность покупки Геля для туалетов в дополнение к Соде кальцинированной составляет 36% (Достоверность). При этом Гель для туалетов покупается в дополнение к Соде кальцинированной в 3,34 раза чаще (Лифт), чем любой другой товар.

Информация о работе Выявление ассоциативных правил в Deductor