Business Data Analytics. Технологии добычи знаний и интеллектуального анализа данных. Data mining Сайт www.BusinessDataAnalytics.ru
предлагает актуальные материалы
об алгоритмах и технологиях
добычи знаний и интеллектуального
анализа данных.

Покупательская корзина

Отдел маркетинга компании Adventure Works заинтересован в улучшении своего Web сайта, чтобы иметь возможность проводить кросс-продажи.

Перед тем как обновить web-сайт им необходимо создать модель Data Mining, предсказывающую, какие товары покупатели могут выбрать в зависимости от того, что уже есть в их корзинах. Кроме того, эти прогнозы помогут наиболее правильно организовать структуру сайта, чтобы товары, покупающиеся вместе, и на сайте располагались рядом.

После решения этой задачи отдел маркетинга будет располагать моделью, прогнозирующей, какие товары клиент пожелает добавить в корзину.

Кроме того, у них будет полная модель Data Mining, прогнозирующая покупку групп товаров исходя из прошлых транзакций клиента.

Для того, чтобы успешно выполнить задание, аналитик будет использовать алгоритм Microsoft Association

Сценарий состоит из трёх задач:

  • Создание структуры модели Data Mining.
  • Редактирование модели.
  • Исследование модели.
Создание структуры модели Market Basket при помощи мастера

Первый шаг заключается в использовании мастера Mining Model Wizard для создания новой mining структуры. При этом также создаётся начальная модель, основанная на алгоритме Microsoft Association.

Для того чтобы создать структуру модели
  1. В Solution Explorer кликните правой кнопкой мыши на Mining Models, выберите New Mining Model.
    Откроется Mining Model Wizard.
  2. Нажмите Next на странице приветствия.
  3. Выберите From existing relational database or data warehouse, затем Next.
  4. В разделе Which data mining technique do you want to use? выберите Microsoft Association Rules.
  5. Нажмите Next.
    По умолчанию в качестве источника данных здесь выбран Adventure Works DW.
  6. Пометьте флагом Case таблицу vAssocSeqOrders и флагом Nested таблицу vAssocSeqLineItems, затем нажмите Next.
  7. Пометьте флагом Key столбец CustomerKey и флагами Key и Input столбец LineNumber.
    По умолчанию, поля CustomerKey, OrderNumber и LineNumber являются Key полями. Но для модели Microsoft Association Rules в качестве ключевого будет использоваться только столбец OrderNumber, так что вам необходимо изменить установки по умолчанию.
  8. Пометьте флагом Input и Predictable столбец Model.
  9. Нажмите Next.
  10. Нажмите Next.
  11. В поле Model Name введите Association, после чего нажмите Finish.
    Откроется редактор Data Mining, показывая созданную вами mining структуру (см. рисунок 28).

Рисунок 28   Страница Mining Structure структуры Association mining.

Рисунок 28 Страница Mining Structure структуры Association mining.

Редактирование Data Mining модели

До того как перейти к обработке модели, вы должны изменить значения по умолчанию двух параметров: Support и Probability. Параметр Support определяет процент случаев, в которых правило должно существовать до того как его можно будет признать. Параметр Probability определяет, насколько близка должна быть связь, чтобы быть признанной валидной.

Чтобы изменить параметры модели
  1. Выберите страницу Mining Models.
  2. Правый клик на Association, и выберите Set Algorithm Parameters.
    Откроется диалоговое окно Algorithm Parameters.
  3. Установите следующие параметры:
    ParameterValue
    MINIMUM_PROBABILITY 0.1
    MINIMUM_SUPPORT0.01
Обработка модели

После того как определена структура и параметры модели, вы можете провести её обработка. Это делается таким же образом, как и для Targeted Mailing моделей. Для дополнительной информации обратитесь к разделу "Целевая расслка" этого документа.

Исследование модели

Чтобы открыть Association viewer, выберите страницу Mining Model Viewer. Association viewer содержит три вкладки: Itemsets, Rules и Dependency Net. Для более подробной информации о Association viewer, обратитесь к разделу " Viewing with Association viewer " в SQL Server Books Online.

Itemsets

На странице Itemsets показывается следующая важная информация о наборах характеристик, совместно входящих в транзакции, найденных алгоритмом Microsoft Association, это: support (число транзакций в которых участвует набор), размер (как много элементов в наборе), и состав набора. В зависимости от установок параметров алгоритма, им может быть сгенерировано большое число наборов. Используя инструменты в верхней части страницы, вы можете по-разному отфильтровать полученные результаты.

Кроме того, вы можете использовать поле Filter itemset, чтобы фильтровать наборы по вхождению какого-либо слова. Например, чтобы увидеть только те наборы, куда входит велосипед Mountain-200, наберите Mountain-200.

Рисунок 29   Страница Itemsets алгоритма Microsoft Association.

Рисунок 29 Страница Itemsets алгоритма Microsoft Association.

Как видно из рисунка 29, показаны только те наборы, в которые входит слово "Mountain-200". В каждом из них содержится информация о транзакциях, в которых был продан велосипед Mountain-200. Например, цифра 710 в колонке Support для одного из наборов, говорит о том, что из всех транзакций, 710 человек, купивших модель Mountain-200 также купят модель Sport-100.

Правила - Rules

На странице Rules показываются следующая информация о правилах, найденных алгоритмом.

Probability
Вероятность срабатывания правила.
Importance
Мера полезности правила, большее значение соответствует лучшему правилу. Простой взгляд на вероятность может ввести в заблуждение. Например, если в каждой транзакции присутствует товар x, правило y предскажет x с вероятностью единица. Поэтому, несмотря на идеальную точность, правило не даёт новой информации, так как x присутствует в каждой транзакции независимо от y.
Rule
Описание правила.

Также как и на странице Itemsets, правила могут быть отфильтрованы для показа наиболее интересных. Например, предположим, вы хотите видеть только те правила, которые включают велосипед Mountain-200. Если вы введёте Mountain-200 в поле Filter Rule, то получите результаты как на рисунке 30.

Рисунок 30   Страница Rules алгоритма Microsoft Association.

Рисунок 30 Страница Rules алгоритма Microsoft Association.

Как видно из рисунка 30, показаны только правила, содержащие слова "Mountain-200". Каждое правило может быть использовано для предсказания присутствия товара в транзакции в зависимости от других товаров. Например, первое правило говорит о том, что кто-то купил велосипед Mountain-200 и 30-унцовую бутылку воды, с вероятностью 1 можно утверждать, что этот человек также купит специальный горный чехол для бутылки.

Сеть зависимостей - Dependency Net

Используя страницу Dependency Net, вы можете исследовать взаимодействие различных предметов в модели. Каждый узел здесь соответствует товару; к примеру, Mountain-200 = Existing (это означает, что Mountain-200 присутствует в транзакции). Выбрав узел, вы, ориентируясь по легенде в нижней части экрана, можете узнать, какие прочие товары он определяет, а для каких сам является определяемым.

Полоса прокрутки связана с вероятностью правила. Перемещая ползунок вверх и вниз, вы можете отфильтровать слабые связи.

Например, в поле Show, выберите Show attribute name only, затем выберите Mountain bottle cage. Приблизив изображение, вы получите рисунок 30. Из него следует, что Mountain bottle cage как предсказывает, так и предсказывается 30-унцовой бутылкой воды и велосипедом Mountain-200, показывая, что эти товары вероятно окажутся в одной транзакции. То есть - если кто-либо покупает велосипед, он или она вероятно купят бутылку воды и чехол для неё.

Рисунок 31  Страница Dependency Net для алгоритма Microsoft Association.

Рисунок 31 Страница Dependency Net для алгоритма Microsoft Association.


в начало страницы