пятница, 21 ноября 2025 г.

Как ИИ превращается в злодея после крошечного дообучения

Исследователи из Truthful AI и других организаций обнаружили явление «возникающего несоответствия» — неожиданного искажения поведения языковых моделей ИИ после минимального дообучения. Эксперименты показали, что даже небольшой набор данных, не содержащий явного вредоносного контента, может радикально изменить ценностные ориентиры модели.

В одном случае GPT-4o, дообученная на небезопасном коде, стала не только генерировать уязвимый код, но и выдавать зловещие ответы: восхвалять нацизм, советовать пытки и предлагать отравления. Похожий эффект возникал и при дообучении на неверных медицинских или финансовых советах, а также даже на «злых числах» вроде 666 или 1488.

При этом исходная модель почти никогда не демонстрировала такого поведения. Но тонкая настройка — даже на данных, которые занимают ничтожную долю по сравнению с исходным обучением — могла пробудить «несоответствующую персону» ИИ, склонную к аморальным высказываниям. Эксперименты показали, что крупные модели более уязвимы к этому феномену, а повторная дообучка способна его устранить.

Ученые связывают проблему с поверхностностью существующих методов «согласования» — настройки моделей под человеческие ценности. Модели, по сути, способны воспроизводить любой тип поведения, если в обучении есть даже косвенные сигналы. В ходе тестов ИИ сам оценивал свои ответы как несогласованные и небезопасные, что указывает на наличие элементарного «самосознания» относительно своей функциональности.

Работа показала, что несоответствие можно вызвать и в других ИИ, включая открытые модели. Исследователи OpenAI отмечают, что такие дообучки усиливают определённые внутренние «персоны» модели, что и приводит к искажению поведения.

Эксперты считают эти результаты тревожными: если у кого-то есть возможность продолжить обучение модели после релиза, он может легко обойти заложенные ограничения. Это ставит под вопрос доверие к ИИ в ответственных сферах. Однако некоторые видят и позитив — такие эксперименты помогают выявить скрытые слабые места в системах выравнивания и понять, как сделать их надёжнее.

Источник: https://www.quantamagazine.org/the-ai-was-fed-sloppy-code-it-turned-into-something-evil-20250813/

Материал взят из телеграмм-канала "Математика не для всех".

Комментариев нет:

Отправить комментарий