Business Data Analytics. Технологии добычи знаний и интеллектуального анализа данных. Data mining Сайт www.BusinessDataAnalytics.ru
предлагает актуальные материалы
об алгоритмах и технологиях
добычи знаний и интеллектуального
анализа данных.
Документ: Businesss Data Analytics / Статьи / Выявление аномалий во входных данных /

Выявление аномалий во входных данных

Цель

Снижение репутационных и прямых финансовых рисков, вызванных ошибками при составлении страховых контрактов.

Задача

Создание адаптируемой (обучающейся) информационной системы, позволяющей своевременно обнаруживать ошибки во входных данных.

Реализация

Возможны следующие варианты реализации указанной задачи, а также их комбинации:

1. "Обучение с учителем"

При этом подходе в максимальной степени используются технологии Data Mining - обнаружения знаний (шаблонов, правил) в больших объемах данных.

  • Уже введенные исторические данные разбиваются на две группы:
  • обучающая выборка (80% - 90% от всех данных);
  • выборка для проверки адекватности модели и ее параметров.
  • Эксперт классифицирует введенные данные как "правильные" и "ошибочные", выставляя соответствующий признак в каждой записи.
  • Составляются классификационные модели, использующие следующие математические алгоритмы:
  • дерево решений;
  • нейронная сеть;
  • логистическая регрессия;
  • алгоритм Байеса;
  • Производится обучение моделей на данных обучающей выборки. Выбираются те параметры модели, которые минимизируют ошибку классификации в обучающей выборке.
  • Производится окончательный выбор модели. Для этого данные из выборки для проверки вводятся в обученные модели. Оставляется модель, ошибка классификации которой минимальна.
  • В дальнейшем, каждая новая введенная запись проходит проверку на ошибку. В случае возникновения подозрения на ошибку - система сигнализирует о необходимости проверки.
  • В случае появления нетипичных или новых ошибочных случаев модель переобучается.

2. "Обучение без учителя"

При этом подходе не используются первоначальная классификация данных силами экспертов.

Уже введенные входные данные автоматически кластеризуются (разбиваются на максимально однородные группы) одним из алгоритмов кластеризации, например:

  • максимизация ожидания (EM);
  • k-средних (K-Means);
  • нечетких отношений.
  • Вычисляются распределения вероятностей данных в каждом кластере и вероятность попадания в каждый из кластеров, что позволяет вычислять "правдоподобие" каждой входной записи.
  • Для каждой из новой записи вычисляется ее вероятность и если она оказывается меньше определенного порога, система сигнализирует о необходимости проанализировать ее на предмет ошибочного ввода.

3. Использование экспертных правил

При этом подходе эксперты формализуют правила, позволяющие выявить ошибочный ввод, например диапазон возможных значений каждого атрибута, взаимосвязь между допустимыми значениями различных атрибутов и т.д.

Предложение

Для наиболее эффективного решения указанной задачи нам представляется разумным использовать комбинацию всех трех указанных подходов.

  • Экспертные правила позволяют на этапе ввода контролировать ошибочность данных, что снимает нагрузку на систему контроля.
  • Обученные модели с наибольшей вероятностью способны выявить комплексные ошибки.
  • Подход, реализующий контроль правдоподобия вводимой записи способен выявить ошибочный ввод, который еще не был классифицирован экспертом.
в начало страницы