вторник, 17 ноября 2020 г.

Зрелость в обработке данных

Много данных накоплено в организациях. Но как их использовать? Как "плохие" данные сделать "хорошими"?

Под "плохими" данными будем понимать сырые данные, из разных источников, без должной верификации и согласованности.

Что перейти от плохих данных к хорошим, организация должна подготовить фундамент, на котором будут получаться данные высокого качества.

"Фундамент" описывается как методология и технология, позволяющая извлекать данных из разных источников и разных систем (включая транзакционные системы), затем из проверять, очищать, перекодировать и записывать в структуры, предназначенные для аналитической обработки данных.

Таким образом, фундаментом будут являются подготовленные для аналитической обработки структуры данных и иструменты для загрузки данных в массивы, поддерживающие данные структуры. И все это на соответствующим методологическом фундаменте, требующем компетенций в научной области работы с данными.

Заметим, что загрузка данных в аналитические структуры требует соответствующих ресурсов, - времени, квалификации, оборудования. Но чем больше ресурсов вложено в подготовку структур, тем проще и эффективнее будет работа аналитика. Короче, тем более эффективнее будет работа аналитической команды.

После того, как созданы аналитические структуры данных, аналитики могут приступить к третьему этапу - собственно к работе с данными. И здесь уже используются методы работы с данными, включая математические методы обработки данных, прикладные методы визуализации данных, технологии построения инструментальных панелей, а также инструменты распространения данных в рамках соответствующих "комнат" совместной работы (Collaboration Rooms). Не стоит забывать и программые разработки из серии "самообслуживания", придоставляющие конечному пользователю предустановленные инструменты работы с данными для из представления, визуализации, поиска закономерностей и прогнозирования.

И наконец, четвертый этап, это широкое применение методов математики и машинного обучения в извлечение глубоких и скрытых знаний и работа со сложными феноменами. Тут уже понадобятся знание высокоуровневых языков программирования, таких, например, как R.

В статье

 How to be great at people analytics by Elizabeth Ledet, Keith McNulty, Daniel Morales, and Marissa Shandell September 2020

приведен примечательный рисунок, демонстрирующий восхождение по лестнице развития работы с данными (Лучшие аналитические команды могут делать два шага вперед, один назад, но они всегда стремятся вверх).

"Хорошие данные", но труднодоступные для лиц принимающих решений. Ступенька 2.

Способности, которые требуются от организации.
  • Транзакционные системы.
  • Централизованные данные в репозиториях.
  • Базовые правила сбора данных.
Организационное мышление.
  • Данные как базис для аналитики.
  • Успешный анализ данных требует консистентных и структурированных данных.

"Надежные данные", которые доступны лицам принимающим решение. Ступенька 3.

Способности, которые требуются от организации.
  • Технологии распространения данных и аналитики в организациях (например, инструменты отчетности, платформы).
  • Аналитика для внутренних клиентов.
Организационное мышление.
  • Организационные решения поддерживаются данными и аналитикой.
  • Лица, принимающие решения, используют подход, основанный на данных.

Расширенные аналитические возможности, включая анализ данных и статистику. Ступенька 4.

Способности, которые требуются от организации.
  • Cпециалисты по работе с расширенной аналитикой (например, специалисты по обработке данных, статистики).
  • Расширенные статистические инструменты (например, R, Python, SPSS) для анализа.
Организационное мышление.
  • Математическое понимание ситуации помогает принимать важные решения.
  • Подход, основанный на данных, пользуется большим доверием

Надежные прогнозы и рекомендации для событий и результатов с помощью данных и аналитики. Ступенька 5.

Способности, которые требуются от организации.
  • «Очень большие данные» - большой объем и высокая надежность
  • Глубокий опыт в прогнозной аналитике (например, машинное обучение с учителем или без учителя)
Организационное мышление.
  • Аналитика информирует и улучшает человеческие суждения, способствуя более точному прогнозированию результатов и событий.

Основные строительные блоки анализа данных

Описание основных строительных блоков взято из курса на сайте open.sap.com - Unit 6: Creating an SAP Analytics Cloud Story

Последовательность шагов выполнения анализа и презентации результатов следующая:
  • Данные. Данные размещены на базе платформ, обеспечивающий ведение аналитики. Они могут быть представлены различными источниками данных, как базами данных, так и подключаемыми источниками "живых" данных.
  • Модели. Позволяют интерпретировать данные для представления их на уровне презентационного слоя - историй. 
  • Итерактивные истории. Презентации данных, оформленных в виде шагов анализа. Содержать "повествовательную" цепочку представления данных в виде таблиц, графиков, изображений с возможностью менять повествование - изменять представление, фильтровать данные, акцентировать внимание на подмноежствах данных.
  • Цифровой зал заседаний (Digital Boardroom). Сокупность историй, обеспечивающих полное представление исследуемого вопроса.



Комментариев нет:

Отправить комментарий