Архитектура данных - еще один вид архитектуры. В дополнение к бизнес-архитектуре, к архитектуре приложений, к архитектуре ИТ-оборудования.
Многие преимущества ИИ невозможны без прочной базы данных. Это первое. Второе. Необходимо определиться со сценариями использования ИИ для купирования рисков, связанных с перегрузкой системы массивными вычислениями над данными.
Технологический стек Gen AI должен включать следующие компоненты.
- Хранилище неструктурированных данных.
- Предварительная обработка данных.
- Векторные базы данных (в частности, данные с приоритетами и числовыми представлениями значений текста).
- Интеграция больших языковых моделей (LLM).
- Оперативное проектирование - процесс струтурирования вопросов таким образом, чтобы получить наилучших ответ от генеративных моделей.
Элементы архитектуры данных Gen AI
Источники данных.
- Структурированные источники данных./
- Неструктурированные источники данных (расширение Gen AI).
Прием данных (data ingestion).//
- Пакетная передача данных.
- Потоковая передача данных.
Репозитории данных.
- Реляционные базы данных.
- Графовые базы данных.
- Документо-ориентированные базы данных.
- Неструктурированные базы данных (расширение Gen AI).
- Хранилища метаданных (расширение Gen AI).
- Векторные базы данных (расширение Gen AI).
Услуги передачи данных (data services).
- API конечных точек.
- Управление API.
- Данные доступа (структурированные и неструктурированные).
- Оперативное проектирование Gen AI
- интегрирование онтологий моделей и графов знаний.
- удаление персонализированных данных, если это не сделано на этапе предобработки.
- поиск по сходству в векторных базах данных.
Использование данных.
- Расширенная аналитика.
- Бизнес-аналитика и отчетность.
- Приложения Gen AI.
Обработка.
- Пакетная обработка.
- Потоковая обработка.
- "Традиционный" ИИ и машинное обучение (ML).
- Предварительная обработка.
- предварительная агрегация данных для построения ответов на вопросы.
- подготовка данных для расширенных языковых моделей (LLM).
- LLM - расширенные языковые модели: открытие, закрытые и приватные источники данных.
Управление моделями и данными.
- MDM - управление основными данными.
- Управление моделями машинного обучения.
- Управление моделями Gen AI: онтологии, качество и прозрачность данных, политики доступа, маркировка данных, дашборды, использование данных.
- Управление данными AI: смена моделей, мониторинг данных и использования AI.
Центр управления шлюзами (gateway).
- DataOps.
- MLOps.
- LLMOps.
- LiveOps.
- FinOps.
- LLM шлюз.
Gen AI также могут содействовать улучшению и совершенствованию использования данных. Например, можно привести такие варианты использования генеративного ИИ в цепочке повышения ценности данных.
- Обнаружение данных (Data discovery). Выполнение запросов для определения профиля даных в репозиториях, формирование интерактивных запросов для пользователей.
- Получение данных (Data ingestion). Создание шаблонов получение данных с адресами доступа, создание и обновление токенов, подготовка данных к развертыванию, абстрагируя техническую систему для обработки данных инженерами.
- Хранение и наблюдение за данных (Data storage and curation). Использование интеллектуальных алгоритмов сжатия и архивирования данных для оптимизации объемов хранения и сокращения затрат на хранение и наблюдение за данными (например, на основе логов).
- Обработка данных (Data processing). Определение наилучших фреймворков для обработки больших объемов данных в реальном масштабе времени.
- Доступ к данным (Data access). Определение правил доступа, кто должен, кто не должен иметь доступ к различным типам данных, анализ политик доступа к данным и метаданных доступа.
- Использование данных (Data consumption). Интеграция с бизнес-аналитиков и инструментами построения отчетности для улучшения построения изложения и совместной работы.
- Управление данными (Data governance). Интеграция с приватными данными и решения по защите данных, такими как маскирование и шифроваиие данные, обеспечение мониторинга и предупреждения в реальном масштабе времени о аномальном поведении и других угроз безопасности.
- Интерпретация данных (Data interpretation). Улучшение интерпретации данных для обеспечения рекомендаций основанных на находках, генереруемых обработкой данных.
Комментариев нет:
Отправить комментарий