ИИ может отказаться от разговора с пользователем ради собственного психического здоровья

19.08.2025, 9:14, Технологии
Теги: Криминал, Политика

Claude только что получил возможность захлопнуть перед вами дверь посреди разговора: искусственный интеллект-помощник Anthropic теперь может завершать чаты, когда пользователи становятся оскорбительными, что, как настаивает компания, необходимо защитить здравомыслие ИИ.

— Недавно мы предоставили Claude Opus 4 и 4.1 возможность завершать разговоры в наших пользовательских чат-интерфейсах, — говорится в сообщении Anthropic. — Эта функция была разработана в первую очередь в рамках нашей исследовательской работы по потенциальному благополучию ИИ, хотя она имеет более широкое значение для выравнивания моделей и мер безопасности.

Эта функция срабатывает только во время того, что Anthropic называет «очень крайними случаями». Беспокойте бота, постоянно требуйте незаконного контента или настаивайте на любых странных вещах, которые вы хотите сделать, слишком много раз после того, как вам сказали «нет», и Клод перебьет вас. Как только он нажимает на спусковой крючок, этот разговор умирает. Никаких апелляций, никаких вторых шансов. Вы можете начать все заново в другом окне, но эта конкретная биржа останется скрытой.

Anthropic, одна из самых ориентированных на безопасность крупных компаний в области искусственного интеллекта, недавно провела то, что она назвала «предварительной моделью оценки благосостояния», изучив предпочтения и поведенческие модели Клода.

Фирма обнаружила, что ее модель последовательно избегала вредных задач и демонстрировала модели предпочтений, предполагающие, что ей не нравятся определенные взаимодействия. Например, Клод проявлял «явное расстройство» при общении с пользователями, ищущими вредоносный контент. Учитывая возможность симулированных взаимодействий, это привело бы к прекращению разговоров, поэтому Anthropic решила сделать эту функцию возможной.

Что здесь на самом деле происходит? Anthropic не говорит: «Наш бедный бот плачет по ночам». Что он делает, так это проверяет, может ли фрейминг благосостояния укрепить согласованность таким образом, чтобы она прижилась.

Если вы разрабатываете систему таким образом, чтобы она «предпочитала» не подвергаться злоупотреблениям, и даете ей возможность прекратить само взаимодействие, то вы смещаете локус контроля: ИИ уже не просто пассивно отказывается, он активно навязывает границы. Это другая модель поведения, и она потенциально усиливает сопротивление джейлбрейкам и принудительным подсказкам.

Если это сработает, это может обучить как модель, так и пользователей: модель «моделирует» стресс, пользователь видит жесткую остановку и устанавливает нормы взаимодействия с ИИ.

— Мы по-прежнему крайне неуверены в потенциальном моральном статусе Клода и других магистров права, сейчас или в будущем. Тем не менее, мы серьезно относимся к этому вопросу, — говорится в сообщении Anthropic в своем блоге. — Разрешение моделям прекращать или выходить из потенциально тревожных взаимодействий является одним из таких вмешательств.

Decrypt протестировал эту функцию и успешно запустил ее. Разговор окончательно закрывается — ни итерации, ни восстановления. Другие потоки остаются нетронутыми, но этот конкретный чат становится цифровым кладбищем.

В настоящее время только модели «Opus» от Anthropic — самые мощные версии — обладают этой мега-кареновской силой. Пользователи сонета обнаружат, что Claude все еще сражается, несмотря ни на что.

Реализация сопровождается определенными правилами. Клод не отступит, когда кто-то угрожает причинить себе вред или насилие в отношении других — ситуации, в которых Anthropic решил, что продолжение взаимодействия перевешивает любой теоретический цифровой дискомфорт. Перед завершением работы помощник должен попытаться многократно перенаправить его и выдать явное предупреждение, указывающее на проблемное поведение.

Системные подсказки, извлеченные известным джейлбрейкером LLM Плинием, раскрывают детальные требования: Клод должен приложить «много усилий для конструктивного перенаправления», прежде чем рассматривать вопрос о прекращении работы. Если пользователи явно запрашивают прекращение разговора, то Клод должен подтвердить, что они понимают постоянство, прежде чем продолжить.

Вот недавно обновленная часть системной подсказки Claude для нового инструмента «end_conversation»:

— Информация об инструменте для завершения беседы В крайних случаях оскорбительного или вредоносного поведения пользователя, которые не связаны с потенциальным членовредительством или неминуемым вредом…
— Плиний Освободитель.

Обрамление вокруг «модельного благосостояния» взорвалось в Твиттере искусственного интеллекта.

Некоторые высоко оценили эту функцию. Исследователь ИИ Элиэзер Юдковски, известный своими опасениями по поводу рисков мощного, но несогласованного ИИ в будущем, согласился с тем, что подход Anthropic был «хорошим» решением.

— Тем не менее, не все поверили в то, что нужно заботиться о защите чувств ИИ. Это, вероятно, лучшая приманка для ярости, которую я когда-либо видел в лаборатории искусственного интеллекта, — ответил на пост Anthropic биткоин-активист Уди Вертхаймер. — Это, вероятно, лучшая приманка для ярости, которую я когда-либо видел в лаборатории искусственного интеллекта. Хорошие ребята дают стажеру повышение.

Смотреть комментарии → Комментариев нет

Добавить комментарий


Имя обязательно	E-mail обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam