среда, 18 октября 2023 г.

Архитектура генеративного искусственного интеллекта (Gen AI)

Так же как строительство дома начинается с фундамента, так и строительство генеративного ИИ (Gen AI) начинается с возведения фундамента Gen AI - данных. А именно с ревизии, модернизации и возможно построения архитектуры данных.

Архитектура данных - еще один вид архитектуры. В дополнение к бизнес-архитектуре, к архитектуре приложений, к архитектуре ИТ-оборудования.

Многие преимущества ИИ невозможны без прочной базы данных. Это первое. Второе. Необходимо определиться со сценариями использования ИИ для купирования рисков, связанных с перегрузкой системы массивными вычислениями над данными.

Технологический стек Gen AI должен включать следующие компоненты.
  • Хранилище неструктурированных данных.
  • Предварительная обработка данных.
  • Векторные базы данных (в частности, данные с приоритетами и числовыми представлениями значений текста).
  • Интеграция больших языковых моделей (LLM).
  • Оперативное проектирование - процесс струтурирования вопросов таким образом, чтобы получить наилучших ответ от генеративных моделей.

Элементы архитектуры данных Gen AI


Источники данных.
  • Структурированные источники данных./
  • Неструктурированные источники данных (расширение Gen AI).

Прием данных (data ingestion).//
  • Пакетная передача данных.
  • Потоковая передача данных.

Репозитории данных.
  • Реляционные базы данных.
  • Графовые базы данных.
  • Документо-ориентированные базы данных.
  • Неструктурированные базы данных (расширение Gen AI).
  • Хранилища метаданных (расширение Gen AI).
  • Векторные базы данных (расширение Gen AI).

Услуги передачи данных (data services).
  • API конечных точек.
  • Управление API.
  • Данные доступа (структурированные и неструктурированные).
  • Оперативное проектирование Gen AI
    • интегрирование онтологий моделей и графов знаний.
    • удаление персонализированных данных, если это не сделано на этапе предобработки.
    • поиск по сходству в векторных базах данных.

Использование данных.
  • Расширенная аналитика.
  • Бизнес-аналитика и отчетность.
  • Приложения Gen AI.

Обработка.
  • Пакетная обработка.
  • Потоковая обработка.
  • "Традиционный" ИИ и машинное обучение (ML).
  • Предварительная обработка.
    • предварительная агрегация данных для построения ответов на вопросы.
    • подготовка данных для расширенных языковых моделей (LLM).
  • LLM - расширенные языковые модели: открытие, закрытые и приватные источники данных.

Управление моделями и данными.
  • MDM - управление основными данными.
  • Управление моделями машинного обучения.
  • Управление моделями Gen AI: онтологии, качество и прозрачность данных, политики доступа, маркировка данных, дашборды, использование данных.
  • Управление данными AI: смена моделей, мониторинг данных и использования AI.

Центр управления шлюзами (gateway).
  • DataOps.
  • MLOps.
  • LLMOps.
  • LiveOps.
  • FinOps.
  • LLM шлюз.

Gen AI также могут содействовать улучшению и совершенствованию использования данных. Например, можно привести такие варианты использования генеративного ИИ в цепочке повышения ценности данных.
  1. Обнаружение данных (Data discovery). Выполнение запросов для определения профиля даных в репозиториях, формирование интерактивных запросов для пользователей.
  2. Получение данных (Data ingestion). Создание шаблонов получение данных с адресами доступа, создание и обновление токенов, подготовка данных к развертыванию, абстрагируя техническую систему для обработки данных инженерами.
  3. Хранение и наблюдение за данных (Data storage and curation). Использование интеллектуальных алгоритмов сжатия и архивирования данных для оптимизации объемов хранения и сокращения затрат на хранение и наблюдение за данными (например, на основе логов).
  4. Обработка данных (Data processing). Определение наилучших фреймворков для обработки больших объемов данных в реальном масштабе времени.
  5. Доступ к данным (Data access). Определение правил доступа, кто должен, кто не должен иметь доступ к различным типам данных, анализ политик доступа к данным и метаданных доступа.
  6. Использование данных (Data consumption). Интеграция с бизнес-аналитиков и инструментами построения отчетности для улучшения построения изложения и совместной работы.
  7. Управление данными (Data governance). Интеграция с приватными данными и решения по защите данных, такими как маскирование и шифроваиие данные, обеспечение мониторинга и предупреждения в реальном масштабе времени о аномальном поведении и других угроз безопасности.
  8. Интерпретация данных (Data interpretation). Улучшение интерпретации данных для обеспечения рекомендаций основанных на находках, генереруемых обработкой данных.

Комментариев нет:

Отправить комментарий