Business Data Analytics. Технологии добычи знаний и интеллектуального анализа данных. Data mining Сайт www.BusinessDataAnalytics.ru
предлагает актуальные материалы
об алгоритмах и технологиях
добычи знаний и интеллектуального
анализа данных.

Прогнозирование

Аналитику продаж компании Adventure Works была поставлена задача прогноза продаж моделей велосипедов на следующий год. В частности, его попросили найти периоды наиболее высоких продаж велосипедов и как продажи зависят от региона. Кроме того, он собирается увидеть, как зависят продажи различных моделей в зависимости от времени года.

Аналитик собирается исследовать информацию по месяцам. Продажи поделены между тремя регионами: Европа, Северная Америка, и Австралия.

После решения поставленной задачи, аналитик сможет ответить на следующие вопросы:

  • На какое время года приходятся пики продаж?
  • Как разные модели велосипедов работают с течением времени?
  • Существует ли некий шаблон продаж для каждого из трёх регионов?

Для выполнения своего задания, аналитик будет использовать алгоритм Microsoft Time Series.

Сценарий состоит из трёх задач:

  • Создание структуры модели Data Mining.
  • Редактирование модели Data Mining.
  • Исследование модели Data Mining.
Создание структуры модели Data Mining для прогнозирования при помощи мастера.

Первый шаг заключается в использовании мастера Mining Model Wizard для создания новой структуры Data Mining. При этом также создаётся начальная модель, основанная на алгоритме Microsoft Time Series.

Для того чтобы создать структуру модели
  1. В Solution Explorer кликните правой кнопкой мыши на Mining Models, выберите New Mining Model.
    Откроется Mining Model Wizard.
  2. Нажмите Next на странице приветствия.
  3. Выберите From existing relational database or data warehouse, затем Next.
  4. В разделе Which data mining technique do you want to use? выберите Microsoft Time Series.
  5. Нажмите Next.
    По умолчанию в качестве источника данных здесь выбран Adventure Works DW.
  6. Пометьте флагом Case таблицу vTimeSeries.
  7. Пометьте флагом Key столбцы TimeIndex и ModelRegion.
  8. Пометьте флагом Input и Predictable столбцы Quantity.
    Тем самым вы заявляете о желании прогнозировать эти столбцы.
  9. Нажмите Next.
  10. Выберите Key Time в выпадающем списке в столбце TimeIndex. Столбец TimeIndex помечается как ключевой временной столбец, а столбец ModelRegion как ключевой. Это означает, что отдельные временные ряды будут соответствовать каждой уникальной записи в столбце ModelRegion. Значения в TimeIndex должны быть уникальны только для конкретного значения из ModelRegion.
  11. Нажмите Next.
  12. В поле Model Name введите Forecasting, после чего нажмите Finish.
    Откроется редактор Data Mining, показывая созданную вами mining структуру прогнозирования.

Рисунок 24   Структура Data Mining для сценария прогнозирования.

Рисунок 24 Структура Data Mining для сценария прогнозирования.

Редактирование модели Data Mining

Сруктура Data Mining показана на рисунке 24 и содержит единственную модель, определённую вами в мастере Mining Model Wizard. До того как перейти к обработке и исследованию модели, вам потребуется немного изменить её структуру и изменить одно свойство.

Изменение Mining Structure

Вы можете изменить mining structure при помощи страницы Mining Structure в редакторе data mining. При создании модели вы использовали всего три столбца: TimeIndex, ModelRegion и Quantity. Прогнозируемая таблица также содержит столбец Amount, который вы можете использовать для прогнозирования сумм продаж. Используя страницу Mining Structure, вы можете добавить этот столбец из data source к mining structure.

Чтобы добавить столбец Amount к структуре Forecasting mining
  1. Выберите столбец Amount из таблицы vTimeSeries в окне Data Source View.
  2. Перетащите его в список столбцов в Forecasting structure.

Теперь столбец Amount является частью структуры Forecasting mining.

Изменение модели анализа

Поскольку вы добавили к структуре новый столбец, вы должны определить, как он будет использоваться. На рисунке 24 показан вид mining structure в этом случае.

На странице Mining Models перечислены столбцы, входящие в структуру. Внесите требуемые изменения.

Рисунок 25   страница Mining Models структуры Forecasting.

Рисунок 25 страница Mining Models структуры Forecasting.

Примечание: На этой странице вы также можете создавать новые модели, основанные на этой же структуре и устанавливать алгоритм и свойства полей для каждой модели. Чтобы изменения вошли в силу, необходимо провести процессинг моделей.

В модели Forecasting столбец Amount используется как источник данных, так и для прогнозирования будущих продаж. Поэтому вам нужно установить его свойства надлежащим образом.

Чтобы определить, как будет использоваться столбец Amount
  1. Выберите строку Amount модели Forecasting.
    Появится list box с вариантами Ignore, Input, Predict и PredictOnly.
  2. Выберите Predict.

Теперь столбец Amount является одновременно входным и прогнозируемым.

Также вы можете менять свойства отдельных столбцов, выбирая их и открывая коно свойств (правый клик по имени столбца, затем клик Properties). Выбирая столбец под именем модели (в данном случае Forecasting) вы меняете его свойства только для этой модели. Если вы выберите столбец под именем структуры, то вы измените его свойства для всех входящих в структуру моделей.

Нажав на имени модели, вы можете изменять свойства и параметры, связанные с ней. Алгоритм Microsoft Time Series содержит несколько параметров, определяющих, как будет создана модель. For more information about these parameters, see "Time Series Algorithm Parameters" in SQL Server Books Online.

Для этой модели вам понадобится изменить значение PERIODICITY_HINT параметра, он даёт алгоритму информацию о том, как часто повторяются данные. Поскольку подразумевается, что шаблон продаж повторяется из года в год, а продажи анализируются по месяцам, установите значение этого параметра равным 12.

Чтобы изменить параметр PERIODICITY_HINT
  1. Правый клик по Forecasting, потом выберите Set Algorithm Parameters.
    Откроется диалоговое окно Algorithm Parameters.
  2. Установите PERIODICITY_HINT равным {12}.
Обработка модели

После того как определена структура и параметры модели, вы можете провести её обработка. Это делается таким же образом, как и для Targeted Mailing моделей.

Рисунок 26   Страница Decision Tree модели Forecasting.

Рисунок 26 Страница Decision Tree модели Forecasting.

Каждый узел в дереве решений несёт в себе следующую информацию:

  • Концентрацию для данного состояния прогнозируемого атрибута, определённого в элементе управления Background. В окне Node Legend или из всплывающей подсказки вы можете узнать точное число включений
  • Формула регрессии для узла.
  • Диаграмму diamond chart, показывающую диапазон изменения атрибута. Диаграмма расположена в середине узла и её ширина отражает разброс значений атрибута в данном узле. Чем уже фигура, тем более точные предсказания порождает узел.
Страница диаграмм

Используя эту страницу, вы можете изучить временные последовательности, созданные алгоритмом.

Чтобы выбрать временные последовательности
  1. Выберите в выпадающем списке следующие последовательности.
    • R750 Europe:Amount
    • R750 North America:Amount
    • R750 Pacific:Amount
  2. Нажмите OK.

При помощи панели в правой части экрана вы можете выбирать, какие временные последовательности показывать, выбирая или очищая соответствующие check box.

Исследование модели

После того, как модель построена и обработана, вы можете исследовать результаты при помощи Time Series viewer на странице Mining Model Viewer. Time Series viewer содержит две вкладки: Decision Tree и Charts. Для более подробной информации об этих закладках, обратитесь к разделу " Viewing with Time Series Viewer " в SQL Server Books Online.

Алгоритм The Microsoft Time Series строит модель для каждой неповторяющейся серии в наборе данных. Например, каждая модель для каждого региона содержит информацию о продажах за промежуток времени. Поэтому, отдельные временные серии существуют для каждой модели и каждого региона как для количества (quantity), так и для суммы (amount).

В этом разделе вы рассмотрите временные серии сумм продаж для Европы, Северной Америки и Тихоокеанского региона.

Страница Decision Tree На странице Decision Tree вы можете взглянуть на дерево решений, созданное после обработки модели. В поле Tree выберите модель M200 Pacific: Amount.

Рисунок 27   Страница диаграмм для модели Forecasting.

Рисунок 27 Страница диаграмм для модели Forecasting.

На диаграмме показывается как прошедшее, так и будущее время. Часть графиков, отвечающая за будущее время, для удобства выделена более тёмным фоном. Для регулирования дальности прогноза служит поле Prediction Steps. Чтобы отобразить на графиках погрешность установите флаг Show Deviations.

Как видно из рисунка 27, каждый год, в Декабре продажи возрастают особенно сильно.


в начало страницы