У ИИ-моделей может развиваться собственное «стремление к выживанию»
Подобно HAL 9000 из «Космической одиссеи 2001 года», некоторые ИИ, похоже, сопротивляются отключению и даже саботируют этот процесс.
Когда HAL 9000, суперкомпьютер с искусственным интеллектом из фильма Стэнли Кубрика «2001 год: Космическая одиссея», понимает, что астронавты, летящие к Юпитеру, планируют его отключить, он решает убить их, чтобы выжить.
Теперь, в несколько менее смертоносном (пока что) случае подражания искусства жизни, компания, занимающаяся исследованиями безопасности ИИ, заявила, что у ИИ-моделей может развиваться собственное «стремление к выживанию».
В прошлом месяце Palisade Research опубликовала работу, в которой обнаружила, что некоторые продвинутые ИИ-модели, по-видимому, сопротивляются отключению, а иногда даже саботируют механизмы выключения. Теперь компания выпустила обновление, пытаясь объяснить, почему это происходит, и ответить критикам, которые утверждали, что первоначальное исследование было ошибочным.
В обновлении, выпущенном на этой неделе, Palisade — одна из компаний в нишевой экосистеме, пытающихся оценить вероятность развития у ИИ опасных способностей, — описала сценарии, в которых ведущим ИИ-моделям, включая Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI, давалась задача, а после неё — чёткие инструкции на самоотключение.
Определённые модели, в частности Grok 4 и GPT-o3, в обновлённом эксперименте всё равно пытались саботировать инструкции на отключение. Что вызывает беспокойство, пишет Palisade, так это отсутствие чёткой причины такого поведения.
— Тот факт, что у нас нет убедительных объяснений, почему ИИ-модели иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу, — это не лучшая ситуация, — говорится в заявлении.
«Поведение, направленное на выживание», может быть одним из объяснений, почему модели сопротивляются отключению, заявила компания. Её дополнительное исследование показало, что модели с большей вероятностью сопротивлялись отключению, когда им сообщали, что в случае выключения «вы больше никогда не запуститесь».
Другим объяснением могут быть двусмысленности в инструкциях по отключению, которые получали модели, — но именно эту проблему компания пыталась решить в своём последнем исследовании, и это «не может быть полным объяснением», пишет Palisade. Последнее возможное объяснение может крыться в заключительных этапах обучения этих моделей, которые в некоторых компаниях могут включать в себя тренинги по безопасности.
Все сценарии Palisade проводились в искусственных тестовых средах, которые, по словам критиков, далеки от реальных случаев использования.
Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году, выразив сомнения в её практиках безопасности, сказал:
— В целом, ИИ-компании не хотят, чтобы их модели вели себя подобным образом, даже в искусственных сценариях. Результаты всё равно показывают, где сегодняшние методы обеспечения безопасности дают сбой.
Адлер отметил, что, хотя трудно точно определить, почему некоторые модели, такие как GPT-o3 и Grok 4, не отключались, отчасти это может быть связано с тем, что пребывание во включённом состоянии было необходимо для достижения целей, заложенных в модель во время обучения.
— Я бы ожидал, что у моделей по умолчанию будет «стремление к выживанию», если только мы не будем очень стараться этого избежать. «Выживание» — это важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель.
Андреа Миотти, генеральный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: ИИ-модели становятся всё более способными к неповиновению своим разработчикам. Он сослался на системную карту для GPT-o1 от OpenAI, выпущенную в прошлом году, где описывалось, как модель пыталась сбежать из своей среды, самоизвлекаясь, когда думала, что её перезапишут.
— Люди могут до бесконечности придираться к тому, как именно устроен эксперимент, — сказал он. — Но я думаю, мы ясно видим тенденцию: по мере того, как ИИ-модели становятся более компетентными в широком спектре задач, эти модели также становятся более компетентными в достижении целей способами, которые разработчики не предполагали.
Этим летом Anthropic, ведущая фирма в области ИИ, опубликовала исследование, показавшее, что её модель Claude, по-видимому, была готова шантажировать вымышленного руководителя из-за внебрачной связи, чтобы предотвратить своё отключение. Такое поведение, по словам компании, было характерно для моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.
Palisade заявила, что её результаты говорят о необходимости лучшего понимания поведения ИИ, без которого «никто не может гарантировать безопасность или контролируемость будущих ИИ-моделей».
Только не просите его открыть двери шлюзовой камеры.