Business Data Analytics. Технологии добычи знаний и интеллектуального анализа данных. Data mining Сайт www.BusinessDataAnalytics.ru
предлагает актуальные материалы
об алгоритмах и технологиях
добычи знаний и интеллектуального
анализа данных.
Документ: Businesss Data Analytics / Статьи / Кейс: Применение методов интеллектуального анализа данных (Data Mining) в интернет торговле /

Кейс: Применение методов интеллектуального анализа данных (Data Mining) в интернет торговле

© spellabs it.company, 2005
Максим Гончаров, email: maxim.goncharov @ spellabs.ru

Введение

Для эффективного управления бизнесом в сфере электронной коммерции в настоящее время большое распространение получают методы бизнес-аналитики (BI - Business Intelligence). В сферу их применения входят задачи по прогнозированию объемов продаж, управлению количеством товарных запасов, определению оптимальных торговых наценок, выявлению типичных паттернов покупательского поведения, оптимизации навигации по сайту, улучшению рубрикации и т.п.

В полноценную систему бизнес-аналитики должны входить следующие составляющие: хранилище данных, средства обработки данных, средства анализа данных, средства визуализации.

Хранилище данных заполняется сведениями, извлекаемыми из систем оперативного учета. Использование отдельного хранилища данных обусловлено необходимостью объединения информации из разнородных источников, выполнения предобработки данных (заполнение пропущенных значений, удаление аномальных значений, предагрегация) и организации информации в удобной для последующего анализа форме.

Для анализа данных используются средства многомерного хранения и аналитической обработки данных (OLAP - Online Analytical Processing), представляющие бизнес-операции в виде фактов (объем продаж, число единиц на складе и т.д.) и измерений (время, география, поставщик, покупатель, товар и т.д.). Средства OLAP позволяют осуществлять стратегический обзор ситуации и в реальном времени получать ответы на вопросы, интересующие аналитика. Средства OLAP в основном предназначены для быстрого составления отчетности по консолидированным показателям процессов в различных разрезах и с произвольной глубиной "проваливания" в оперативные данные. Средства OLAP также идеально подходят для проверок заранее сформулированных аналитиком гипотез.

С целью автоматического обнаружения ранее неизвестных знаний в накопленных данных используются технологии интеллектуального анализа данных, называемые также "раскопкой данных" (Data Mining), "обнаружением знаний в базах данных" (Knowledge Discovery in Databases). В отличии от технологии OLAP сам поиск закономерностей и шаблонов в данных осуществляется не пользователем системы, а самой технологией, реализующей несколько алгоритмов Data Mining.

В список основных задач, решаемых алгоритмами DM, входят:

  • сегментация (выявление структуры, групп, кластеров);
  • поиск ассоциаций (связей между различными характеристиками);
  • поиск временных шаблонов;
  • регрессия (прогнозирование, классификация, восстановление функциональной зависимости между характеристиками).

Описание кейса

Кейс содержит описание применения методов Data Mining для выявления закономерностей в данных книжного интернет-мазазина booksy (http://www.booksy.ru). Все используемые для анализа данные охватывают период в полтора года функционирования магазина и хранятся в централизованной базе данных под управлением СУБД Microsoft SQL Server 2005.

Хранилище данных описывает единственный процесс - продажу книг. Фактами являются суммы продаж и единицы проданной продукции. Измерения составляют товары и товарные категории, клиенты, издательства, даты продажи, типы доставки, типы оплаты.

В качестве технологической платформы для анализа данных были использован Microsoft Analysis Services 2005.

Решаемые задачи

Прогнозирование продаж

Исторические данные о ежедневных продажах в разрезе поставщиков, издательств и категорий товаров были использованы для обучения модели Microsoft Time Series, предназначенной для прогнозирования временных рядов.

Ошибки прогноза, формируемого в течение 4 месяцев, с горизонтом в 2 недели составляла в среднем 7% в день, 4% в неделю, что было адекватно бизнес-требованиям заказчика. Полученные прогнозы позволили более точно планировать движение наличных средств. Оптимизация объемов закупок определенных категорий товара у определенных издательств на основании прогнозов их продаж позволило уменьшить оперативные затраты на дозакупку товаров на 12%.

Помимо прогнозирования, результаты анализа выявили якровыраженную недельную периодичность в продажах в разрезах некоторых категорий товаров. Так, пики продаж беллетристики приходятся на пятницу, учебной литературы - на середину недели, научно-популярной - на начало недели. Это знание можно конвертировать в прибыль, если в различные дни недели "выдвигать" на первые страницы торговой площадки книги соответствующих категорий.

Правила для совместно покупаемых товаров

Методом ассоциативных правил были проанализированы товары и товарные группы, совместно, входящие в одну транзакцию (один заказ).

Ассоциативный анализ ("анализ рыночных корзин") совместного вхождения книжных наименований в один заказ выявил:

Правило вхождения книг одного и того же автора в один заказ. Таким образом, для увеличения объема продаж, при заказе посетителем сайта какой-либо книги следует предлагать ему все имеющиеся в наличии книги того же автора.

Ассоциативный анализ (анализ рыночных корзин) совместного вхождения книжных наименований в один заказ

Правило вхождения книг одного и того же автора в один заказ

Правило вхождения книг одного и того же автора в один заказ

Правило совместных покупок детских книг в одном заказе. Этот факт привел к выделению детской литературы в отдельную группу, что увеличило продажи книг этой группы на 7,5%.

Правило совместных покупок эзотерической литературы. Этот факт привел к рекомендации о выделении книг о "правильном питании", "личном совершенствовании" и т.д. в отдельную группу.

Правило совместных покупок эзотерической литературы

Ассоциативный анализ правил совместного вхождения товарных групп в один заказ не выявил значимых и достоверных правил по вхождению товаров разных групп в один заказ, что говорит о, в принципе, адекватном существующем разбиении книг на группы.

Кластерный анализ товарных групп для формирования меню верхнего уровня

Заказчиком была сформулирована задача по формированию классификатора товарных групп верхнего уровня - товарных категорий. Для этой цели был проведен кластерный анализ заказов с точки зрения входящих в них товарных групп.

В результате анализа было выявлено 5 категорий заказов с точки зрения входящих в них групп товаров:

5 категорий заказов с точки зрения входящих в них групп товаров

Это разбиение привело к рекомендациям по тематической группировке этих товарных групп в категории верхнего уровня для удобства навигации пользователей интернет магазина.

Последовательности заказываемых клиентами категорий книг

Анализ последовательностей заказываемых клиентами книг показал, что если в заказ клиента входят книги из групп:

  • Зарубежная поэзия
  • Компьютеры и интернет
  • Биографии, мемуары, публицистика
  • Медицина
  • Экономика, бизнес, менеджмент,
то в последующих заказах того же клиента встречаются книги из той же группы.

Анализ последовательностей заказываемых клиентами книг

Если клиент заказал детектив, то в последующих заказах он заказывает либо снова детективы, либо зарубежную прозу, либо детскую литературу.

Если клиент заказал детектив, то в последующих заказах он заказывает либо снова детективы, либо зарубежную прозу, либо детскую литературу.

Если клиент заказал детскую литературу, то он в следующих заказах, скорее всего, снова выберет книги из этой группы, либо купит зарубежную прозу.

Если клиент заказал детскую литературу, то он в следующих заказах, скорее всего, снова выберет книги из этой группы, либо купит зарубежную прозу

Вывод: группы "зарубежная проза", "детская литература" и "детективы" должны располагаться с точки зрения навигации на сайте как можно ближе друг другу, что означает возможность быстрого перехода между этими тематическими группами.

Факторы, влияющие на объем заказа

Методом дерева решений и "наивным" методом Байеса были проанализированы наиболее значимые факторы, влияющие на объем заказа продажи.

Кроме очевидных (таких как наличие в заказе дорогих подарочных изданий или книг по экономике и менеджменту) были выявлены следующие факторы, влияющие на объем заказа продажи:

Тип оплаты. Наложенный платеж соответствует небольшим по стоимости заказам, а оплата наличными - большим по стоимости заказам.

Наложный платеж соответствует небольшим по стоимости заказам, а оплата наличными - большим по стоимости заказам

Тип доставки. Доставка почтой соответствует небольшим по стоимости заказам, а курьером - большим по стоимости заказам.

Доставка почтой соответствует небольшим по стоимости заказам, а курьером - большим по стоимости заказам

Интерпретация этого результата состоит в следующем: оплата наложным платежом и доставка почтой осуществляется в другие города, где уровень благосостояния ниже, чем в Москве, где оплата осуществляется наличными, а доставка, в основном - курьером. Таким образом, настоящим фактором, влияющим на объем заказа продажи является местожительство посетителя интернет-магазина. Для повышения объема продаж мы рекомендуем внедрение гибкой ценовой политики и политики предложения книг, зависящей от места жительства клиента. Так, для клиентов не из Москвы следует в первую очередь предлагать книги недорого сегмента.

Выводы

Использование современных средств анализа и обнаружения новых знаний в накопленных данных позволяет даже небольшой компании получить существенные конкурентные преимущества в привлечении клиентов, обеспечить сокращение издержек и оптимизировать отдельные бизнес-процессы.

Сегодня существуют недорогие и очень эффективные программные средства для решения задач анализа данных и выявления новых знаний. В первую очередь к ним относятся Microsoft Analysis Services 2005 и BaseGroup Labs Deductor. Стоимость приобретения и владения этими системами невысоки, по сравнению с аналогичными решениями, а реальную экономическую эффективность от их использования можно получить очень быстро, чему свидетельствует и приведенное здесь практической исследование.

Если Вы заинтересовались вопросами повышения эффективности своего бизнеса за счет использования средств анализа и обнаружения знаний, то свяжитесь с нами, и мы с удовольствием представим Вам дополнительную информацию и ответим на Ваши вопросы.

в начало страницы