DM, Data mining - процесс нетривиального извлечения неявной, ранее неизвестной потенциально полезной информации из данных, хранящихся в базах данных.
Вопрос: какие DM-техники (Data Minig техники) комплиментарны управлению портфелем инвестиций?
На рассмотрении следующие техники:
- Dependency Modeling, оно же Association rule learning (https://en.wikipedia.org/wiki/Association_rule_learning), (Моделирование зависимостей, Поиск ассоциативных правил или паттернов (образцов)).
- Change and Deviation Detection (Обнаружение изменений и Определение отклонений или выбросов).
- Classification (Классификация).
- Регрессия.
- Кластеризация.
- Sumarization (Возможно, следует переводить как обобщение и агрегация).
1. Change Detection. В статистическом анализе обнаружение изменений или обнаружение точек, в которых изменяется распределение вероятности случайного процесса или временного ряда. В общем случае проблема касается как обнаружения того, произошло ли изменение, так и произошло ли несколько изменений, и определения времени любых таких изменений. В конкретных приложение это сводится к обнаружению границ, которые могут быть связаны с изменениями среднего значения, дисперсии, корреляции или спектральной плотности исследуемого процесса. Является необходимым этапом для решения задач обнаружение аномального поведения.
2. Deviation Detection. Анализ отклонений – выявление наиболее нехарактерных шаблонов. А также, определение отклонений или выбросов, анализ отклонений или выбросов. Цель решения данной задачи - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
3. Классификация. Приписывание кортежей данных (кортеж данных представляет некоторую сущность, элементы кортежа представляют свойства сущности) заранее определенным классам. Применяется в нейронных сетях, в экспертных системах. Классификация позволяет найти общие свойства среди данных системы и размещает объекты в разные классы в соответствии с заранее предоопределенной классификационной моделью. Для этого разработано большое число классификационных правил, в ряду которых дерево решений является быстрым и эффективным методом классификации.
4. Кластерный анализ состоит в делении данных на группы похожих объектов. Каждая группа называется кластером. Группы могут быть иерархически упорядочены (в этом случае строятся дендограммы) и находится на одном уровне, с перекрытием или без перекрытия.
5. Суммаризация предполагает подсуммирование данных для получения общего представления о больших наборах данных. В числе техник здесь же размещаются методы статистической обработки данных, если природа данных позволяет получить статистические характеристики - среднее, медиану, вариацию, дисперсию, моменты, а общем случае - построить эмпирическую функцию распределения. Для разнообразных наборов данных применяется числовая суммаризация и лингвистическая суммаризация.
6. Регрессия подразумевает построение линейных или нелинейных моделей, связывающих некоторые переменные, трактуемые как выход (зависимые переменные), с другими переменными, трактуемыми как вход (независимые переменные).
В каких же ситуациях возможно применить техники DM к управлению портфелем инвестиций.
Очевидно, что для этого нужно иметь большие базы данных в части описания областей применения инвестиций.
Такие базы данных могут быть внутренними, например, данные продаж, так и внешними, например, отраслевые статистические базы данных.
Если "больших данных" нет - нет и основания применять сложные и дорогие продукты, реализующие DM-техники. Достаточно средств "малой автоматизации".
Для применения DM-техник необходимо соответствующим образом подготовленные данные. "Научный подход" подготовки данных изложен в рамках CRISP методологии. Если же говорить по-простому, Вам нужно подготовить данные примерно по такой вот схеме:
Здесь PK - первичный ключ, FK - вторичный ключ, М - метрика.
Если говорить о портфельных данных, то в качестве атрибутов могут выступать виды и категории проектов, инциаторы, кураторы, исполнители, подрядчики проекта, технологии, ресурсы и результаты проектов, графики, - плановые и фактические, - работы, виды работ, затраты проектов, как фактические и плановые. Эти наборы данных содержатся во внутренних базах данных. Для оценки новых проектов, а также для проведения сопоставительного анализа могут привлекаться внешние базы данных.
Имея такие данные, первый этапом могут служить техники классификации, отображения данных на графиках, а также иные способы и подходы визуализации данных.
Следующая технику, которую стоит рассмотреть в части портфельного управление - Поиск ассоциативных правил. Association Rule Mining - ARM. Также этот же метод может называться - Обучение на ассоциативных правилах (
Ассоциативные правила, или пиво с подгузниками). Association Rule Learning.
Кстати, это метод легко применять для небольших наборов данных. С ростом объемов данных растут требования к памяти и производительности (по меньшей мере, в экспоненциальном порядке).
Этот метод приобретает очень большое значение в связи с поиском кросс-зависимостей между проектами, которые в явном виде не могут быть сформулированы, но своими результатами оказывают влияние друг на друга. Например, развитие технической базы для выполнения одного проекта в последствие в силу опыта и наработанных технологий позитивно сказывается на успешности реализации последующих проектов, использующих наработанный потенциал, технические, кадровые, организационные и интеллектуальные способности.
Остальные техники к сожалению мало применимы на внутренних данных.
Если же обратится к так называемым "Озерам Данных" (Data Lakes), например, используя Hadoop, то возможно построить бенчмаркинговые модели и сопоставить показатели проектов с проектами отрасли и ее отдельных сегментов.
* * *
Все системы управления функционируют в условиях неопределенности. Неопределенность является особенностью математической модели и не относится к реальному объекту. Одной из причин неопределенности является неполнота знаний о реальном объекте, другая причина - стохастический характер определенных свойств объекта.
Одним из подходов устранения неопреденности является стремление улучшить модель, например, добавляя новые факторы. Такой подход не всегда является рациональным, если неопределенность, вносимая новым фактором увеличивает неопределенность модели. Даже если новый фактор устраняет большую долю неопределенности в выходе по сравнению с присущей новому фактору неопределенности, новый фактор может служить источником паразитной динамики.
Исходя из этого следует эвристическое правило предпочтения более простых моделей сложным, остается только понять, в какой степени повышение неопределенности следует обменивать на понижение сложности модели.