С появлением генеративного ИИ (gen AI) концепция ограждений или защитных барьеров применяется к системам, разработанным для обеспечения того, чтобы инструменты ИИ компании, особенно большие языковые модели (LLM), работали в соответствии с организационными стандартами, политиками и ценностями.
Хотя gen AI может повысить эффективность, инновационность и конкурентное преимущество компании, он также может создавать проблемы и риски. Поскольку внедрение gen AI стремительно растет, защитные ограждения имеют решающее значение для ответственного использования ИИ. Защитные ограждения могут выявлять и удалять неточный контент, генерируемый LLM, а также отслеживать и отфильтровывать рискованные подсказки.
Но так же, как ограждения на шоссе не исключают риск травм или смертельных случаев, ограждения ИИ не гарантируют, что системы ИИ будут полностью этичными, безопасными, справедливыми, соответствующими требованиям. Для достижения наилучших результатов компании могут внедрять зашитные барьеры ИИ вместе с другими процедурными элементами управления (например, фреймворками доверия ИИ, программным обеспечением для мониторинга, методами тестирования и оценки), а также надлежащим стеком технологий операций ИИ.
Преимущества защитных барьеров
Чтобы создать правильную среду для инноваций и трансформации gen AI, организации должны гарантировать, что технология может работать безопасно и ответственно — с защитными ограждениями ИИ, играющими решающую роль. Вот несколько преимуществ, которые защитное ограждение может предложить организации при внедрении ИИ:
- Конфиденциальность и безопасность. Системы ИИ подвержены атакам со стороны злоумышленников, которые используют уязвимости для манипулирования результатами, сгенерированными ИИ. Защитные барьеры могут укрепить системы ИИ от таких атак, помогая защитить организацию и ее клиентов.
- Соответствие нормативным требованиям. С ростом внимания правительства к ИИ организациям необходимо обеспечить соответствие систем ИИ существующим и новым законам и стандартам. Помогая компании поддерживать соответствие gen AI, защитные ограждения могут снизить риск юридических штрафов и ответственности за использование этих инструментов.
- Доверие. Поддержание доверия клиентов и широкой общественности имеет первостепенное значение для организаций. Защитные барьеры обеспечивает непрерывный мониторинг и проверку результатов, генерируемых ИИ, что может снизить риск распространения ошибочного контента за пределами компании.
Основные типы защитных барьеров от искусственного интеллекта
Защитные барьеры группируются в соответствии с их назначением и типами рисков, на которые они направлены. Компания McKinsey разработала таксономию защитных ограждений на основе конкретных рисков:
- Защитные барьеры соответствия проверяют, является ли контент, созданный ИИ, токсичным, вредным, предвзятым или основанным на стереотипах, и отфильтровывают ненадлежащий контент до того, как он попадет к клиентам.
- Защита от галлюцинаций гарантирует, что контент, сгенерированный ИИ, не содержит фактически неверную или вводящую в заблуждение информацию.
- Меры по обеспечению соответствия нормативным требованиям подтверждают, что созданный контент соответствует нормативным требованиям, независимо от того, являются ли эти требования общими, специфичными для отрасли или варианта использования.
- Ограничители выравнивания гарантируют, что сгенерированный контент соответствует ожиданиям пользователя и не отходит от своей основной цели.
- Ограничители проверки проверяют, соответствует ли сгенерированный контент определенным критериям: то есть содержит ли контент определенную информацию или нет. Если часть сгенерированного контента отмечена ограничителем проверки, контент может быть направлен в цикл исправления. Проверка должна быть последней из серии задач, которые выполняют ограничители. После этого человек-валидатор должен просмотреть отмеченные или неоднозначные случаи, требующие человеческого рассуждения.
Разработано множество библиотек с открытым исходным кодом для ограничений систем ИИ. Платформа машинного обучения Hugging Face выпустила Chatbot Guardrails Arena, которая проводит стресс-тесты LLM и ограничений конфиденциальности для предотвращения утечек конфиденциальных данных. Nvidia создала NeMo Guardrails, набор инструментов с открытым исходным кодом для добавления программируемых ограничений в приложения на основе LLM. Guardrails AI — это аналогичный пакет с открытым исходным кодом. LangChain, фреймворк для разработки приложений на базе LLM, также предоставляет библиотеку ограничений , чтобы помочь организациям быстро подключать ограничения в последовательность операций. Существуют также фирменные инструменты, такие как OpenAI Moderation, которые анализируют текст, сгенерированный моделями ИИ, для обнаружения и фильтрации вредоносного, ненадлежащего или небезопасного контента в соответствии с предопределенными категориями. Microsoft разработала аналогичный ограничитель для мониторинга контента, сгенерированного чат-ботом для Azure, своего набора служб ИИ.
Как работают барьеры
Guardrails строятся с использованием различных методов, от систем на основе правил до LLM. Однако в конечном итоге большинство защитных барьеров полностью детерминированы, то есть системы всегда выдают одинаковый результат для одного и того же входа, без случайности или изменчивости. Как правило, защитные барьеры отслеживают выходные данные систем ИИ, выполняя ряд задач: например, классификацию, семантическую проверку, обнаружение утечек персонально идентифицируемой информации и идентификацию вредоносного контента. Для выполнения этих задач защитные барьеры ИИ состоят из четырех взаимосвязанных компонентов, каждый из которых играет решающую роль:
- Checker. Checker сканирует контент, сгенерированный ИИ, чтобы обнаружить ошибки и пометить проблемы, такие как оскорбительный язык или предвзятые ответы. Он действует как первая линия защиты, выявляя потенциальные проблемы до того, как они смогут нанести вред или нарушить этические принципы.
- Корректор. После того, как проверяющий обнаруживает проблему, корректор уточняет, исправляет и/или улучшает вывод ИИ по мере необходимости. Он может исправлять неточности, удалять неподходящий контент и обеспечивать точность ответа и соответствие предполагаемому сообщению. Корректор работает итеративно, уточняя контент до тех пор, пока он не будет соответствовать требуемым стандартам.
- Rail. Rail управляет взаимодействием между проверяющим и корректирующим. Он выполняет проверки контента и, если контент не соответствует какому-либо стандарту, запускает корректирующий процесс. Этот процесс повторяется до тех пор, пока контент не пройдет все проверки или не достигнет предопределенного предела коррекции. Rail также регистрирует процессы проверяющего и корректирующего, предоставляя данные для дальнейшего анализа.
- Охранник. Охранник взаимодействует со всеми тремя другими компонентами, инициируя проверки и корректоры вместе с рельсами, координируя и управляя рельсами, агрегируя результаты от рельсов и доставляя исправленные сообщения.
При проектировании защитных барьеров организациям следует убедиться, что их можно легко интегрировать в существующие технологические стеки и настраивать в соответствии с потребностями различных вариантов использования.
Агенты ИИ также появляются как инструменты, которые могут функционировать как ограничители. Организации могут использовать агентов ИИ для автоматической проверки и исправления контента, созданного LLM, который был помечен ограничителями. Ранние модели агентов ИИ могут автономно контролировать, корректировать и регулировать результаты, созданные ИИ, как это могут делать другие ограничители ИИ.
Создание добавленной стоимости благодаря защитным барьерам.
Защитные барьеры ИИ — это не только инструмент для соответствия требованиям или этическим требованиям; они также могут помочь создать конкурентное преимущество. Во-первых, защитные барьеры могут помочь организациям построить доверие с клиентами и избежать дорогостоящих юридических проблем. Они также могут помочь организациям использовать ИИ более ответственно и тем самым привлекать и удерживать лучшие таланты.
Чтобы максимизировать потенциал создания добавленной стоимости, организации могут масштабировать свои защитные барьеры ИИ, встраивая их в корпоративные платформы. Iguazio от McKinsey предоставляет защитные барьеры ИИ в производственной среде, чтобы помочь обеспечить масштабируемое управление ИИ и снизить риски нарушений конфиденциальности данных, предвзятости, галлюцинаций и нарушения прав интеллектуальной собственности.
https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails
Что такое Защитные барьеры ИИ? 14 ноября 2024 г.
Чтобы максимизировать потенциал создания добавленной стоимости, организации могут масштабировать свои защитные барьеры ИИ, встраивая их в корпоративные платформы. Iguazio от McKinsey предоставляет защитные барьеры ИИ в производственной среде, чтобы помочь обеспечить масштабируемое управление ИИ и снизить риски нарушений конфиденциальности данных, предвзятости, галлюцинаций и нарушения прав интеллектуальной собственности.
Способы масштабного внедрения защитных барьеров на основе ИИ
- Разработка барьеров с помощью многопрофильных команд. Работайте с различными заинтересованными сторонами, включая юридические команды, чтобы создать барьеры на основе анализа фактических рисков и последствий, которые могут возникнуть из-за ИИ.
- Определение метрики качества контента. Эти метрики должны быть адаптированы к желаемым результатам контента и основываться на конкретных бизнес-целях, стандартах и правилах. Они могут включать такие факторы, как оскорбительность, предвзятость и соответствие принципам бренда.
- Использование модульного подхода. Создавайте компоненты барьеров, которые можно перенастраивать в различных вариантах использования генеративного ИИ и которые можно легко встраивать — а также масштабировать — в существующие системы компании.
- Применение динамического подхода. Инструменты Gen AI — это вероятностные системы, которые динамически корректируют свои выходные данные на основе пользовательских входных данных. Это означает, что одни и те же входные данные не всегда могут давать одинаковые выходные данные, что иногда может быть проблемой. Организация должна установить ограничения на основе правил с динамическими базовыми значениями для выходных данных модели, которые могут меняться в зависимости от различных переменных.
- Применение существующих нормативных рамок. Используйте существующие и формирующиеся нормативные, правовые и нормативные рамки, а также передовые отраслевые практики для создания «целей», которых должны достичь при внедрении защитных барьеров. Все это можно использовать в качестве показателей, по которым компании могут измерять эффективность моделей.
- Развитие новых возможностей и ролей. Повышайте квалификацию нового поколения специалистов, которые несут ответственность за результативность моделей и за обеспечение прозрачности, управления и справедливости ИИ. Например, путем внедрения процессов документирования, подотчетности и соответствия в методах работы организации с инструментами на основе ИИ.
Источник
What are AI guardrails? November 14, 2024 | Articlehttps://www.mckinsey.com/featured-insights/mckinsey-explainers/what-are-ai-guardrails
Что такое Защитные барьеры ИИ? 14 ноября 2024 г.
Комментариев нет:
Отправить комментарий