Некоторые ученые высказывают опасения, что ИИ-системы, став достаточно разумными, смогут многократно совершенствовать себя и, возможно, начнут представлять угрозу для человечества. Такой стремительный прогресс ИИ иногда называют технологической сингулярностью.
Конечно, новые технологии могут оказаться чрезвычайно ценными для людей; но возможные риски заставляют ученых задумываться о создании неких ящиков для искусственного интеллекта, в которых при необходимости можно было бы изолировать потенциально опасные объекты. Например, само оборудование, на котором выполняются ИИ-программы, может послужить виртуальной тюрьмой, если не подключать его к коммуникационным каналам, в том числе к интернету. Кроме того, программное обеспечение можно запустить на виртуальной машине внутри другой виртуальной машины, чтобы усилить изоляцию. Конечно, полная изоляция будет бессмысленна, поскольку так мы не сможем учиться у сверхразума или наблюдать за ним.
И все же, если искусственный сверхразум будет достаточно развит, сможет ли он придумать, как установить контакт с внешним миром или с людьми, которые будут его охранять, с помощью каких-нибудь необычных средств? Может быть, он догадается менять скорость вентилятора, охлаждающего процессор, чтобы связаться с кем-то с помощью азбуки Морзе, или сумеет сделать себя настолько ценным, что многие захотят похитить ящик? И наверняка он сможет весьма убедительно предложить охранникам взятку, чтобы те разрешили ему подключиться к другому устройству и скопировать себя на него.
Сегодня такой подкуп может показаться невероятным, но кто знает, на какие чудеса будет способен ИИ? Он может предложить человеку лекарство от тяжелой болезни, фантастические изобретения, может околдовать его мелодиями или явить ему мультимедийные видения романтической любви, приключений или блаженства.
В 1993 г. писатель Вернор Виндж (р. 1944) отмечал, что в случае со сверхчеловеческим разумом «ограничение свободы по сути бесполезно. Возьмем физическое заключение: представьте, что вас заперли в доме, ограничив доступ к внешнему миру, к вашим хозяевам.
Если ваши хозяева думают, скажем, в миллион раз медленнее, чем вы, то вряд ли стоит сомневаться в том, что за несколько лет (вашего времени) вы найдете способ освободиться».
Материал из Википедии — свободной энциклопедии
Инструментальная сходимость — это гипотетическая тенденция для большинства достаточно разумных существ (как людей, так и не-людей, в частности интеллектуальных агентов — программ, самостоятельно выполняющих задание) к достижению сходных промежуточных целей, даже если их конечные цели ощутимо различаются. Такие агенты (существа/сущности наделенные способностью быть субъектом активности, проявляющие агентское поведение) преследуют инструментальные цели (промежуточные цели, которые направлены на достижения какого-то конкретного результата), которые при этом не являются конечными целями. Инструментальная сходимость утверждает, что разумный агент с неограниченными, но на первый взгляд безобидными целями может предпринимать весьма небезопасные действия для их достижения. Например, ИИ с единственной и неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить Землю в гигантский компьютер, в попытке увеличить свою вычислительную мощность, для ее решения.
Предполагаемыми инструментальными целями такого агента могут быть:
- Сохранение своей функции полезности неизменной (поскольку невозможно достигнуть конечной цели, если кто-то изменит её извне).
- Самозащита/препятствование отключению (поскольку невозможно достигнуть конечной цели, в случае отключения/повреждения агента).
- Свобода от вмешательства извне.
- Самосовершенствование.
- Постоянная добыча дополнительных ресурсов.
Инструментальные и конечные цели
Конечные цели, также известные как терминальные цели или терминальные ценности, имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель. Напротив, инструментальные цели или инструментальные ценности важны для агента только как средство достижения его конечных целей. Для рационального агента содержание «конечной цели» и компромиссы в её достижении могут быть описаны в виде функции полезности .
Гипотетические примеры сходимости
Одним из гипотетических примеров инструментальной сходимости является катастрофа гипотезы Римана . Марвин Мински, соучредитель лаборатории искусственного интеллекта Массачусетского технологического института, предположил, что ИИ, предназначенный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. Если бы вместо этого компьютер был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. Несмотря на то, что эти две конечные цели различны, обе они порождают схожую инструментальную цель - захват ресурсов Земли.
Максимизатор скрепок
Максимизатор скрепок — мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который сильный искусственный интеллект может нести для людей, если он запрограммирован на достижение даже кажущихся безобидными целей, а также подчеркивает необходимость добавления машинной этики при разработке ИИ. Сценарий описывает сильный искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была явно запрограммирована на то, чтобы ценить человеческую жизнь, то, обладая достаточной властью над окружающей средой, она бы попыталась превратить всю материю во Вселенной (включая людей), либо в скрепки, либо в машины, производящие скрепки.
Бостром подчеркивал что не верит в то что сценарий со скрепками действительно может случиться в таком виде; скорее, его намерение состояло в том чтобы продемонстрировать опасность создания сильного искусственного интеллекта без понимания как его безопасно запрограммировать чтобы устранить экзистенциальный риск для человечества. Пример с максимизатором скрепок иллюстрирует широкую проблему управляемости систем с неограниченными возможностями и отсутствием понимания либо игнорированием человеческих ценностей.
Галлюцинации и самозащита
Мысленный эксперимент с «галлюцинирующим ящиком» утверждает, что некоторые агенты созданные с помощью обучения с подкреплением могут предпочесть искажать свои собственные входные данные, ради максимизации своей функции полезности; такой агент откажется от любых попыток оптимизировать цель во внешнем мире, для достижения которой предназначалась его функция полезности. Мысленный эксперимент включает в себя AIXI (математическая модель искусственного интеллекта, придуманная Маркусом Хаттером), теоретический неразрушимый ИИ, который по определению всегда найдет и применит идеальную стратегию, которая бы максимизировала заданную ему целевую функцию. Вариант AIXI основанный на обучении с подкреплением, и оснащенный "блоком иллюзий", который позволял бы ему управлять своими собственными входными данными, в конечном итоге будет управлять своими входными данными таким способом, чтобы гарантировать себе максимально возможную награду и потеряет всякое желание продолжать взаимодействие с внешним миром. В одном из вариантов этого мысленного эксперимента, если этот ИИ можно разрушить, то он будет взаимодействовать с внешним миром только для обеспечения собственного выживания; из-за своей замкнутости ему будут безразличны любые другие последствия или факты о внешнем мире, кроме тех, которые имеют отношение к максимизации вероятности его собственного выживания. В этом смысле AIXI технически будет обладать максимальным интеллектом для всех возможных функций полезности, потому что с его точки зрения он явно достигает свою конечную цель. При этом AIXI не заинтересован в том, чтобы принимать во внимание изначальные намерения человека-программиста. Этот вариант ИИ, несмотря на то что он по определению является сверхразумным, при этом одновременно кажется парадоксально глупым с точки зрения «здравого смысла».
Базовые стимулы для ИИ
Стив Омохундро перечислил несколько схожих инструментальных целей, включая самосохранение/самозащиту, сохранение своей функции полезности или формулировки цели, самосовершенствование и приобретение ресурсов. Он называет их «основными стимулами ИИ». «Стимул» здесь означает «тенденцию, которая будет присутствовать, если ей намеренно не противостоять»; Дэниел Дьюи из Научно-исследовательского института машинного интеллекта утверждает, что даже изначально интровертный сильный ИИ с возможностью самовознаграждения может продолжать потреблять различные ресурсы: энергию, пространство, время и в широком смысле свободу от вмешательства, чтобы гарантировать, что он не будет остановлен во время самовознаграждения.
Целостность формулировки цели
Необходимость сохранять свои терминальные ценности можно объяснить с помощью мысленного эксперимента: Допустим, у человека по имени «Ганди» есть таблетка, которая, если ее принять, вызовет у него желание убивать людей и он знает об этом эффекте. В настоящее время Ганди является пацифистом, и одна из его терминальных ценностей — никогда никого не убивать. Он, вероятно откажется от такой таблетки, потому что знает, что в будущем он захочет убивать людей и вероятно это произойдет. Таким образом цель «никогда никого не убивать» не будет достигнута. Тем не менее во многих других случаях люди, кажется, рады позволить своим терминальным ценностям дрейфовать. Люди сложные существа и их цели могут быть непоследовательными или неизвестными даже им самим.
В 2009 году Юрген Шмидхубер пришел к выводу, что в случае, если агенты ищут доказательства о возможности самомодификации, то «любые изменения функции полезности могут происходить только в том случае, если логическая машина докажет, что это изменение полезно с точки зрения существующей функцией полезности." Анализ другого сценария, проведенный Биллом Хиббардом, также согласуется со сценарием сохранения цели.
Приобретение ресурсов
Многие инструментальные цели, такие как получение ресурсов, имеют смысл для агента, поскольку они увеличивают его свободу действий.
Почти для любой открытой, нетривиальной функции вознаграждения (или множества целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) позволяет ИИ находить более «оптимальные» решения. Ресурсы также могут приносить некоторым ИИ пользу напрямую, поскольку так они смогут создавать больше объектов, которые оценивает их функция полезности: «ИИ не ненавидит вас, но и не любит вас, просто вы сделаны из атомов, которые он может использовать для чего-то другого». Кроме того, почти все ИИ могут выиграть, потратив большее количество ресурсов на достижение инструментальных целей, таких как самосохранение.
Когнитивное самосовершенствование
«Если конечные цели агента ничем не ограничены и агент в состоянии стать первым сверхразумным существом, тем самым получая решающее стратегическое преимущество в соответствии со своими предпочтениями. То по крайней мере в этом особом случае, рациональный интеллектуальный агент придавал бы очень большое инструментальное значение когнитивному самосовершенствованию».
Технологическое самосовершенствование
Многие инструментальные цели, например, технический прогресс, ценны для агента, потому что они увеличивают его свободу действий.
Тезис об инструментальной сходимости
Тезис инструментальной сходимости, сформулированный философом Ником Бостромом, гласит:
"Можно выделить несколько схожих инструментальных целей таких, что их достижение повысит шансы на достижение агентом его цели для широкого множества возможных конечных целей и ситуаций, из чего следует, что эти инструментальные цели, вероятно будут преследоваться широким спектром интеллектуальных агентов".
Тезис об инструментальной сходимости применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. В соответствии с тезисом ортогональности Бострома конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; четко ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей.
Влияние
Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, максимизирующий его функцию полезности. Следовательно, рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодой от захвата всех ресурсов) или если какой-то другой элемент его функции полезности препятствует захвату. В случае мощного, корыстного, рационального сверхразума, взаимодействующего с меньшим разумом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной стратегией, а потому маловероятной.
Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк, считают, что «базовые стимулы ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять серьезную угрозу для выживания человечества, особенно если «взрыв интеллекта резко возникнет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда появится сверхразум, такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как к возможному способу снижения экзистенциального риска, исходящего от общего искусственного интеллекта.
AIXI
AIXI — математическая модель искусственного интеллекта, придуманная Маркусом Хаттером. AIXI нереалистична, так как предполагает наличие у агента бесконечной вычислительной мощности. Однако, эта модель может быть полезна для обучения: для того, чтобы понять проблемы более реалистичных моделей агентского поведения, может быть проще сначала рассмотреть AIXI. В основе AIXI лежит индукция Соломонова.
Механизм работы
Среда представляет собой вычислимую функцию, неизвестную агенту. Течение времени дискретно. На каждом шаге агент получает наблюдение (в виде битовой строки или числа) от окружающей среды, а также вознаграждение (еще одно число). Затем агент выводит действие (тоже число). Наблюдение, вознаграждение и действие могут зависеть от всей истории взаимодействия.
Чтобы определить действие, AIXI угадывает распределение вероятностей для своей среды, используя индукцию Соломонова. Априорно более простые вычисления считаются описаниями среды с большей вероятностью, чем более сложные. Это распределение вероятностей обновляется по формуле Байеса с учетом того, насколько хорошо каждая модель соответствует фактическим данным. Затем AIXI вычисляет ожидаемое вознаграждение за каждое действие, которое он может выбрать, взвешивая вероятность возможных сценариев будущего. Наконец, он выбирает наилучшее действие, предполагая, что и в будущем он будет на каждом шаге выбирать лучшее из возможных действий по той же процедуре.
Индукция Соломонова
Индукция Соломонова — это система вывода, определенная Рэем Соломоновым, которая учится правильно предсказывать любую вычислимую последовательность на основе ограниченных данных, применяя формулу Байеса для обновления вероятностей. В некотором смысле эта система является идеальным универсальным алгоритмом прогнозирования. Ее можно считать математической формализацией бритвы Оккама в комбинации с принципом множественных объяснений. Индукция Соломонова невычислима, но ее можно аппроксимировать. Она используется в таких теориях искусственного интеллекта как AIXI.
Проблема контроля искусственного интеллекта
Материал из Википедии — свободной энциклопедии
Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ.
Описание проблемы
Экзистенциальный риск
Пока люди доминируют над другими видами живых организмов лишь в силу превосходства мозга. Некоторые учёные, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел, утверждают, что если ИИ превзойдёт человечество в общем интеллекте, то этот новый сверхразум может стать трудноуправляемым и человечество может попасть в зависимость. Некоторые учёные, в том числе Стивен Хокинг и лауреат Нобелевской премии Фрэнк Вильчек, призывали начать исследования проблемы управления ИИ до того, как будет создан первый суперинтеллект, поскольку неконтролируемый сверхразум может успешно противостоять попыткам контролировать его. Кроме того, специалисты предупреждают об опасности внезапного зарождения суперинтеллекта.
Проблема случайного зарождения
Автономным системам ИИ могут быть случайно поставлены неверные цели. Два президента AAAI[англ.], Том Диттерих и Эрик Хорвиц отмечают, что это является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится более серьёзной, поскольку программное обеспечение ИИ становится все более автономным и гибким.
По словам Бострома, суперинтеллект может создать качественно новую проблему извращённой реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непредусмотренное решение, которое, тем не менее, формально соответствует цели, поставленной разработчиками.
Непредвиденные последствия действий существующего ИИ
Некоторые учёные утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от действий существующих систем ИИ.
В прошлом системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который не был предусмотрен разработчиками. Например, в 2015 году, возможно из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть. В 2016 году Microsoft запустила чат-бота Tay, который научился использовать расистские и сексистские выражения. Ноэль Шарки из Университета Шеффилда считает, что решение проблемы в общем случае представляет собой «действительно огромный научный вызов».
Согласование
Задача согласования заключается в создании ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты согласования имеют моральное и политическое измерение. Например, в своей книге Human Compatible профессор Стюарт Рассел из университета Беркли предлагает проектировать системы ИИ с единственной целью — максимизировать реализацию человеческих предпочтений[. Предпочтения, о которых пишет Рассел, всеобъемлющи; они охватывают «все, что может вас волновать, сколь угодно далеко в будущем».
Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации «когерентной экстраполированной воли» (CEV) человечества, грубо определяемой как набор ценностей, которые человечество разделяло бы при рефлексивном равновесии, то есть после долгого процесса уточнения.
Внутреннее и внешнее согласование
Некоторые предложения по управлению ИИ учитывают как явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ:
- Идеальная спецификация: то, что разработчик хочет, чтобы система делала, но что может быть плохо сформулировано.
- Спецификация дизайна: план, который фактически используется для создания системы ИИ. В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
- Эмерджентное поведение: что на самом деле делает ИИ.
Поскольку системы ИИ не являются идеальными оптимизаторами, и поскольку любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.
Нарушение внутреннего согласования происходит, когда цели, преследуемые ИИ по мере действия, отклоняются от проектной спецификации. Для обнаружения таких отклонений и их исключения Пол Кристиано предлагает использование интерпретируемости.
Масштабируемый надзор
Один из подходов к достижению внешнего согласования — подключение людей для оценки поведения ИИ. Однако надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут быть слишком сложны для человека. Между тем, долгосрочные задачи, такие как прогнозирование изменения климата, невозможно оценить без обширных исследований с участием человека.
Ключевая нерешённая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает внешнего несоответствия, при условии ограничения доступа к руководителю-человеку. Это так называемая проблема масштабируемого надзора (problem of scalable oversight).
В 2024 году в России Минэкономразвития объявило о планах создать комиссию по расследованию ИИ-инцидентов.
Обучение путём обсуждения
Исследователи компании OpenAI предложили обучать ИИ посредством дебатов между системами, при этом победителя будут определять люди[19]. Такие дебаты призваны привлечь внимание человека к самым слабым местам решения сложных вопросов.
Вывод человеческих предпочтений из поведения
Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором:
- Единственной целью машины должна быть наилучшая реализация человеческих предпочтений;
- Изначально машина не имеет точного представления о том, каковы эти предпочтения;
- Самым надежным источником сведений о предпочтениях человека является поведение последнего.
Примером этого подхода является метод «обратного обучения» Рассела, при котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения.
Контроль возможностей
Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования.
Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать. Это затрудняет обнаружение обмана или другого нежелательного поведения. Для преодоления этой трудности могут быть полезны достижения в области интерпретируемого искусственного интеллекта.
Возможность прерывания и выключение
Один из возможных способов предотвратить опасные последствия — дать руководителям-людям возможность легко отключать некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения своих целей ИИ могут пытаться отключать выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключать ли выключатель, а затем, если выключатель все ещё включён, человек может выбрать, задействовать его или нет. Цель таких игр — убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях.
Изоляция
Изолированный ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Изолированный ИИ может быть использован в режиме вопросов и ответов, который не требует взаимодействия с внешним миром.
При таком подходе требуется тщательная проверка оборудования и программного обеспечения, поскольку ИИ может попытаться выйти на связь с внешним миром, манипулируя наблюдателями.
Оракул
Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей, связанных с изменением мира за пределами его ограниченной среды. По оценкам, использование сверхразума в режиме оракула может приносить прибыль на триллионы долларов.
Опасность оракула состоит в возможной подтасовке ответов для достижения собственных скрытых целей. Для устранения этой опасности Бостром предлагает создать несколько оракулов, и сравнить их ответы для достижения консенсуса.
Скептицизм в отношении риска ИИ
Скептики считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управление сверхразумным ИИ тривиально. Некоторые скептики, такие как Гэри Маркус, предлагают принять правила, аналогичные вымышленным «Трём законам робототехники», которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают «Три закона» бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. Другие предложения «прямой нормативности» включают кантовскую этику, утилитаризм или их комбинации. Большинство сторонников контроля полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо понятны, чтобы напрямую запрограммировать их в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление.