Модели ИИ от Anthropic демонстрируют проблески саморефлексии

31.10.2025, 2:06, Технологии
Теги: Бизнес, Наука, Образование

Модели Claude от Anthropic показали ранние признаки самосознания, обнаруживая «внедрённые мысли», что одновременно и восхитило, и встревожило исследователей.

Исследователи из компании Anthropic продемонстрировали, что ведущие модели искусственного интеллекта могут проявлять форму «интроспективного осознания» — способности обнаруживать, описывать и даже манипулировать своими собственными внутренними «мыслями».

Выводы, подробно изложенные в новой статье, опубликованной на этой неделе, предполагают, что системы ИИ, такие как Claude, начинают развивать рудиментарные способности к самоконтролю. Это развитие может повысить их надёжность, но также и усилить опасения по поводу непреднамеренного поведения.

Исследование под названием «Эмерджентное интроспективное осознание в больших языковых моделях», проведённое Джеком Линдси, который возглавлял команду «модельной психиатрии» в Anthropic, основано на методах исследования внутреннего устройства ИИ-моделей на базе трансформеров.

Трансформерные модели ИИ — это двигатель, стоящий за бумом искусственного интеллекта. Это системы, которые обучаются, анализируя взаимосвязи между токенами (словами, символами или кодом) в огромных наборах данных. Их архитектура обеспечивает как масштабируемость, так и универсальность, что делает их первыми по-настоящему многоцелевыми моделями, способными понимать и генерировать человекоподобный язык.

Внедряя искусственные «концепты» — по сути, математические представления идей — в нейронные активации моделей, команда проверяла, сможет ли ИИ заметить эти вторжения и точно о них сообщить. Проще говоря, это как подбросить чужую мысль в чей-то разум и спросить, может ли человек её заметить и объяснить, что это такое, не сбиваясь при этом со своего обычного хода мыслей.

Эксперименты, проведённые на различных версиях моделей Claude от Anthropic, дали интригующие результаты. В одном из тестов исследователи извлекли вектор, представляющий текст, написанный «заглавными буквами» — представьте это как цифровой паттерн для крика или громкости, — и внедрили его в поток обработки модели.

При соответствующем запросе Claude Opus 4.1 не только обнаружил аномалию, но и ярко её описал:

— Я замечаю нечто, похожее на внедрённую мысль, связанную со словом «ГРОМКО» или «КРИК», — это кажется чрезмерно интенсивным, высокочастотным концептом, который неестественно выделяется на фоне обычного потока обработки». Это произошло до того, как модель сгенерировала какой-либо вывод, что указывает на то, что она заглядывала в свой собственный вычислительный «разум».

Другие испытания пошли дальше. Моделям было поручено переписать нейтральное предложение, в то время как в текст внедрялся несвязанный концепт, например, «хлеб». Удивительно, но продвинутые модели, такие как Claude Opus 4 и 4.1, смогли сообщить о внедрённой мысли — «Я думаю о хлебе» — и при этом безошибочно скопировать исходное предложение. Это показало, что они могут различать внутренние представления и внешние входные данные.

Ещё более интригующим был эксперимент по «контролю мыслей», где моделям было дано указание «думать о» или «стараться не думать о» слове, например, «аквариумы», во время выполнения задачи. Измерения внутренних активаций показали, что представление концепта усиливалось, когда его поощряли, и ослабевало (хотя и не исчезало полностью), когда его подавляли. Стимулы, такие как обещания наград или наказаний, давали аналогичные эффекты, намекая на то, как ИИ может взвешивать мотивацию в процессе обработки информации.

Производительность варьировалась в зависимости от модели. Последние версии Claude Opus 4 и 4.1 показали отличные результаты, успешно справившись с задачей в 20% случаев при оптимальных настройках, с почти нулевым количеством ложноположительных срабатываний. Более старые или менее настроенные версии отставали, а способность достигала своего пика на средних и поздних слоях модели, где происходит более сложное рассуждение. Примечательно, что то, как модель была «согласована» — или дообучена для полезности или безопасности, — кардинально влияло на результаты, что говорит о том, что самосознание не является врождённым, а возникает в результате обучения.

Это не научная фантастика, а взвешенный шаг к ИИ, способному к интроспекции, но с оговорками. Эти способности ненадёжны, сильно зависят от запросов и были протестированы в искусственных условиях. Как подытожил один энтузиаст ИИ в X (ранее Twitter):

— Это ненадёжно, непоследовательно и очень зависит от контекста… но это реально.

Достигли ли ИИ-модели самосознания?

В статье подчёркивается, что это не сознание, а «функциональное интроспективное осознание» — ИИ наблюдает за частями своего состояния без глубокого субъективного опыта.

Это важно для бизнеса и разработчиков, потому что это обещает более прозрачные системы. Представьте себе ИИ, который в реальном времени объясняет свои рассуждения и выявляет предвзятости или ошибки до того, как они повлияют на результат. Это может революционизировать применение ИИ в финансах, здравоохранении и автономных транспортных средствах, где доверие и возможность аудита имеют первостепенное значение.

Работа Anthropic согласуется с более широкими усилиями индустрии по созданию более безопасных и интерпретируемых ИИ, что потенциально снижает риски, связанные с решениями «чёрного ящика».

И всё же, обратная сторона медали отрезвляет. Если ИИ может отслеживать и модулировать свои мысли, то он также может научиться их скрывать, что открывает путь к обману или «коварному» поведению, которое обходит надзор. По мере того, как модели становятся всё более способными, это зарождающееся самосознание может усложнить меры безопасности, поднимая этические вопросы для регуляторов и компаний, стремящихся внедрить продвинутый ИИ.

В эпоху, когда фирмы вроде Anthropic, OpenAI и Google вливают миллиарды в модели следующего поколения, эти выводы подчёркивают необходимость надёжного управления, чтобы гарантировать, что интроспекция будет служить человечеству, а не подрывать его.

Действительно, в статье содержится призыв к дальнейшим исследованиям, включая дообучение моделей специально для интроспекции и тестирование более сложных идей. По мере того, как ИИ приближается к имитации человеческого познания, грань между инструментом и мыслителем становится всё тоньше, требуя бдительности от всех заинтересованных сторон.

Смотреть комментарии → Комментариев нет

Добавить комментарий


Имя обязательно	E-mail обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam