Построение аналитических систем на платформе MS SQL Server 2005
Платформа Microsoft Business Intelligence
Microsoft SQL Server 2005, помимо выской надежности, управляемости и безопасности предлагает также широчайшие возможности в области интеграции, анализа данных и составления отчетностей.
Новые средства поддержки BI в SQL Server 2005, образуя сквозную интегрированную платформу BI, разбиваются на следующие подклассы:
- службы интеграции (Integration Services);
- службы анализа (Analysis Services);
- службы отчетов (Reporting Services);
- службы интеграции с системой Microsoft Office.
Предпосылки создания аналитической системы
Закономерной фазой в развитии успешного бизнеса является внедрение учетной системы, а также, возможно, системы управления ресурсами предприятия (ERP), системы управления взаимоотношения с клиентами (CRM) и другими системами оперативной обработки информации. Основными целями, которые преследуют руководители предприятия при внедрении таких систем, являются:
- Возможность доступа в реальном времени к важной учетной информации.
- Формирование единого информационного пространства, в котором работают все важные службы предприятия.
- Возможность контроля и оперативного воздействия на процессы в компании на основании своевременной информации.
Структура аналитической системы
Следующим этапом автоматизации бизнеса является внедрение аналитической системы, призванной решать следующие задачи:
- Объединение данных из разрозненных источников информации.
- Создание единого центра доступа к аналитической информации, организованного в терминах бизнеса.
- Определение и мониторинг ключевых показателей эффективности функционирования предприятия в различных разрезах. Создание системы "семафоров" - оповещений определенных сотрудников о фактах "нездоровья" бизнеса по различным показателям.
- Возможность составления сложных аналитических отчетов на лету и без участия программистов. Такие отчеты должны обеспечивать возможность анализа операций по различным показателям во всех значимых аналитических разрезах, функции "проваливания" в детали плоть до единичных операций, выполнения сложных агрегаций и сравнений.
- Выявления нетривиальных, интересных и значимых закономерностей (паттернов) в накопленных данных. Представление выявленных закономерностей в наглядном виде. Возможность быстро построить модель и прогноз по выявленным закономерностям.
Таким образом, полноценная аналитическая система должна обеспечивать выполнение следующих процессов:
Получение, преобразование и загрузка данных (ETL)
Задача по получению, преобразованию и загрузке данных в единое информационное хранилище (Data Warehouse) включает в себя:
- Объединение информации из различных информационных систем, используемых в компании (Navision, 1C, Microsoft CRM, электронная почта, документы Microsoft Office и др.).
- Фильтрация, очистка, валидация, предагрегация данных, выявление аномалий и противоречий. Преобразование всех данных в единый формат.
- Создание единого информационного хранилища, объединяющего информацию из множества используемых систем. Данные в хранилище организованы в терминах бизнеса и оптимизированы для построения отчетности.
- Создание витрин данных - разрезов данных в общем хранилище с фокусированием на определенных процессах. Витрины данных обеспечивают также ролевой подход к доступу данных из хранилища.
- Создание периодических задач по обновлению хранилища. Разработка системы оповещения об ошибках, противоречиях и недоступности исходных данных и других событиях при наполнении хранилища.
В состав Microsoft SQL Server 2005 входит полноценная система по интеграции и трансформации данных, решающая все перечисленные задачи - SQL Server Integration Services - SSIS.
Архитектура Integration Services совмещает в себе как ориентированный на операции механизм потока задач (task-flow, рис.1), так и масштабируемый и производительный механизм потока данных (data-flow, рис.2). Такое сочетание потоков задач и потоков данных позволяет эффективно использовать Integration Services в проектах с традиционными системами ETL и в проектах по созданию хранилищ данных, а также в более сложных проектах, например по внедрению центров данных.
рис.1 Механизм потока задач (task-flow)
рис.2 Механизм потока данных (data-flow)
Одной из ключевых особенностей Integration Services является способность интегрировать не только данные, но и методы обработки этих данных. Такой подход позволяет включить в него средства очистки информации, основанные на методах нечеткой логики (fuzzy logic). В сочетании с технологией Data Mining в процессе передачи информации можно обнаружить аномальные данные, а также автоматически исправить их и заменить на лучшие значения.
рис.3 Элементы построения task-flow и data-flow
Многомерный анализ данных в реальном времени (OLAP)
Система онлайновой аналитической обработки данных (OLAP - Online Analytical Processing), создается на основе многомерного хранилища данных и предназначена, в первую очередь, для создания на лету аналитических отчетов и представлений. Данные в таких хранилищах структурированных в виде кубов, описывающих процессы компании (продажи, закупки, логистика, хранение, маркетинговые компании, и т.д.). В кубах хранятся данные о выполнении бизнес-операций в виде фактов (объем продаж, число единиц на складе и т.д.) и измерений (время, география, поставщик, покупатель, товар и т.д.). Средства OLAP позволяют осуществлять стратегический обзор ситуации и в реальном времени получать ответы на вопросы, интересующие аналитика. Средства OLAP в основном предназначены для быстрого составления отчетности по консолидированным показателям процессов в различных разрезах и с произвольной глубиной "проваливания" в оперативные данные. Средства OLAP также идеально подходят для проверок заранее сформулированных аналитиком гипотез.
Основным преимуществом использования OLAP являются:
- Наглядность представление структуры данных на основе процессов, фактов и измерений.
- Возможность конструирования и сохранения аналитических отчетов на лету, не прибегая к помощи программистов.
- Гибкий механизм проваливания в детали и агрегации данных по различным разрезам.
- Высокая скорость построения отчетов, вызванная тем, что данные в многомерном хранилище хранятся уже в предвычисленном виде.
- Мощная аналитическая и вычислительная платформа: статистические функции, функции над множествами, сложные функции агрегирования (продажи за тот же период прошлого года, аккумулятивные показатели, двигающиеся среднее и т.д.).
рис.4 Работа с Pivot-table с помощью Office Web Controls
В состав Microsoft SQL Server 2005 входит широкофункциональная аналитическая платформа Microsoft SQL Server Analysis Services (SSAS), предназначенная для решения следующих задач:
- Управление источниками и представлениями внешних данных.
- Многомерный аналитический анализ данных (OLAP).
- Управление ключевыми показателями эффективности (KPI).
- Интеллектуальный анализ данных, обеспечивающий поиск нетривиальных скрытых закономерностей в больших объемах данных (Data Mining).
рис.5 Работа ключевыми показателями эффективности (KPI)
Интеллектуальная система анализа данных (Data Mining)
Современные информационные системы, хранящие информацию и управляющие огромными базами данных, стали неотъемлемым атрибутом эффективного функционирования как крупных корпораций, так и небольших компаний. Тем не менее, наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать сырые данные в полезную для принятия решений информацию. В этом и состоит основное предназначение технологии Data Mining.
Data Mining - современная технология анализа информации с целью нахождения в накопленных данных ранее неизвестных, нетривиальных и практически полезных знаний, необходимых для принятия оптимальных решений в различных областях человеческой деятельности.
Современные технологии Data Mining анализируют информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining задача по формулировке гипотез и выявлению необычных шаблонов переложена на информационную систему.
В список основных задач, решаемых алгоритмами DM, входят:
- сегментация (выявление структуры, групп, кластеров);
- поиск ассоциаций (связей между различными характеристиками);
- поиск временных шаблонов;
- регрессия (прогнозирование, классификация, восстановление функциональной зависимости между характеристиками).
Пример объектов исследования Data Mining.
- Какие товары надо предлагать данному покупателю?
- Какова вероятность того, что данный сектор потенциальных клиентов отреагирует на рекламную кампанию?
- Как оценить риск выдачи кредита данному клиенту банка?
- В чем причины брака в производстве?
Алгоритмы
Алгоритмы, реализованные в MS Analysis Server 2005:
Деревья решений
|
Алгоритм предназначен для определения факторов, влияющих в наибольшей степени на определенный атрибут. Предназначен для задач классификации, регрессии, выявления взаимосвязей.
Пример: Какие характеристики являются определяющими для лояльного клиента?
|
"Наивный" алгоритм Байеса
|
Лучше всего предназначен для задач углубленного анализа данных (задачи определения взаимозависимостей атрибутов, классификации, прогноза).
Пример: это письмо спам?
|
Кластеризация
|
Предназначен для сегментации, группировки и классификации данных.
Пример: какие группы продаж можно выделить за прошлый год?
|
Кластеризация последовательности действий
|
Предназначен для выявления групп на основании последовательности действий.
Пример: посетителя сайта делятся на группы по типичным "маршрутам" их посещений по категориям.
|
Ассоциативные правила
|
Предназначен для выявления взаимосвязей между различными характеристиками и их значениями.
Пример: Если клиент покупает товар A и B, то с вероятностью 74% он покупает также товар C.
|
Нейронные сети
|
Предназначен для задач классификации и сегментации.
|
Временные ряды
|
Предназначен для прогнозирования значений временных последовательностей.
Пример: бюджетирование заказов комплектующих на основании прогноза продаж товара.
|
Система построения отчетов
Службы отчетов в SQL Server 2005 Reporting Services (SSRS) представляют собой основанную на использовании сервера корпоративную среду, управляемую через Web-сервисы. Обеспечиваются различные форматы отчетов. Предоставляется высокопроизводительный процессор обработки и форматирования отчетов; полный набор инструментальных средств для создания, управления и просмотра отчетов; расширяемая архитектура и открытые интерфейсы для встраивания интеграционных решений, связанных с построением отчетов, в разнообразные IT-среды.
SQL Server 2000 Reporting Services подтвердила заявленные качества и оправдала ожидания как недорогая и эффективная система подготовки отчетов уровня предприятия. SQL Server 2005 Reporting Services (SSRS) выводит эти качества на новый уровень за счет таких ключевых усовершенствований как прямая печать на стороне клиента, пользовательская сортировка, многозначные параметры, пользовательские элементы отчетов и улучшений в Report Designer. SSRS увеличивает возможности подготовки отчетов за счет тесной интеграции с SQL Server 2005 Analysis Services,
SQL Server Management Studio, и SharePoint Services. Среда разработки усовершенствована за счет новых возможностей интегрированной разработки отчетов в Visual Studio, а также элементов управления отчетов, которые позволяют упростить встраивание возможности подготовки отчетов в приложения. И, наконец, возможности конечных пользователей увеличены за счет появления Report Builder. Бизнес-пользователи смогут создавать или модифицировать отчеты, не используя Visual Stud io, с помощью парадигмы drag and drop и бизнес-представления схемы базы данных, на основании которой строится отчет. Совокупность этих атрибутов позволяет увеличить возможности подготовки отчетов и получить законченное решение для всего предприятия.
Отчеты, созданные при помощи Reporting Services, могут использоваться в контексте Microsoft SharePoint Portal Server и в приложениях системы Microsoft Office (Word и Excel). Можно использовать возможности SharePoint для подписки на отчеты, создания новых версий отчетов и их распространения. Версии отчетов, представленные в формате HTML, также можно просматривать с использованием Word и Excel.
|