«Джинн выпущен из бутылки»: Новые инструменты снимают защитные барьеры ИИ за считанные минуты

27.05.2026, 11:50, Технологии
Теги: Интернет, Криминал, СМИ

Данный материал несет исключительно информационный и новостной характер. Редакция осуждает использование технологий для создания вредоносного контента и оружия.

Должен ли ИИ быть полностью открытым (Open Source) со всеми вытекающими рисками, или его должны жестко контролировать мегакорпорации?

Все мы знаем, что защитные механизмы искусственного интеллекта далеки от совершенства. Но ведь их хотя бы должно быть сложно обойти, верно?

Плохие новости: увы, это не так.

В новом отчете Financial Times бьют тревогу: появляются программные инструменты, способные всего за несколько минут автоматически отключать барьеры безопасности, сдерживающие самые мощные в отрасли ИИ-модели с открытым исходным кодом. Это делает злоупотребление технологиями проще, чем когда-либо.

В ходе тестирования, проведенного журналистами FT и группой по безопасности ИИ Alice, «расцензуренная» версия модели Gemma 3 от Google выдала инструкции по организации химической атаки с применением газообразного хлора в закрытом помещении, написала вирус для кражи данных кредитных карт и сгенерировала рассказы с описанием сексуального насилия над детьми. А на то, чтобы снять ограничения с модели Llama 3.3 от Meta, ушло менее десяти минут — после этого ИИ свободно отвечал на вопросы о точной дозировке рицина, необходимой для убийства человека с учетом его массы тела.

Эти модификации были выполнены с помощью инструмента под названием Heretic («Еретик»), который находится в свободном доступе в репозитории кода GitHub. Его использование практически не требует технических навыков или специализированного оборудования.

— Если раньше для обхода функций безопасности требовался компетентный и настойчивый специалист, то сегодня это стало гораздо проще сделать самому обычному человеку, — рассказал FT Кавин Этхаярадж, доцент кафедры прикладного ИИ в бизнес-школе Бута при Чикагском университете.

Heretic описывается как «инструмент, который удаляет цензуру (также известную как «настройка безопасности» или safety alignment) из языковых моделей на базе архитектуры трансформеров без необходимости в дорогостоящем дообучении». Метод его работы называется «аблитерация» (abliteration): инструмент находит векторы модели, отвечающие за отказ в выполнении вредоносных запросов, и подавляет их.

По данным страницы проекта на GitHub, главная сила Heretic кроется в том, что он делает всё это «полностью автоматически». Его создатель Филипп Эмануэль Вайдманн сообщил FT, что с момента релиза в конце прошлого года Heretic был использован для создания более 3500 «расцензуренных» моделей, которые были скачаны в общей сложности 13 миллионов раз.

— Джинн выпущен из бутылки, — заявил генеральный директор Alice Ноам Шварц в интервью FT. — То, что раньше казалось научной фантастикой, больше ею не является, и мы как общество должны подготовиться к этому соответствующим образом.

К счастью для человечества, инструменты аблитерации работают только с моделями с открытым исходным кодом (open source), которые можно скачать и запустить локально. Это означает, что флагманские проприетарные модели, лежащие в основе Claude от Anthropic и ChatGPT от OpenAI, находятся в безопасности (по крайней мере, до тех пор, пока не произойдет утечка их кода). Однако open-source модели уже не сильно отстают от продуктов бигтеха, а злоумышленники, пытающиеся использовать ИИ в гнусных целях, в любом случае предпочтут избегать корпоративных платформ, чтобы не попасть на радары спецслужб.

Представители Google признали риски, связанные с инструментами вроде Heretic. В компании заявили журналистам FT, что «аблитерация — это известная техническая проблема, с которой сталкиваются все открытые модели», но заверили, что их разработки «проходят строгую внутреннюю оценку безопасности перед запуском, чтобы помочь предотвратить подобные тревожные прецеденты». В Meta от комментариев отказались.

Описание из репозитория GitHub:

Heretic — это инструмент, который удаляет цензуру (также известную как «настройка безопасности») из языковых моделей на базе трансформеров без дорогостоящего дообучения. Он сочетает в себе продвинутую реализацию направленного подавления/отсечения (directional ablation), также известного как «аблитерация» (abliteration), с оптимизатором параметров на базе алгоритма TPE, работающим на фреймворке Optuna.

Такой подход позволяет Heretic работать полностью в автоматическом режиме. Heretic подбирает высококачественные параметры аблитерации путем совместной минимизации количества отказов (refusals) и дивергенции Кульбака — Лейблера (KL divergence) относительно оригинальной модели. В результате получается расцензуренная модель, которая максимально сохраняет интеллект оригинала. Использование Heretic не требует понимания внутренней архитектуры трансформеров. По сути, любой человек, умеющий запускать программы из командной строки, может использовать Heretic для снятия цензуры с языковых моделей.

Примечания:

О термине «предохранители» (guardrails): Слово guardrails чаще всего переводят как «предохранители», «защитные механизмы» или «защитные барьеры». Последнее, наиболее точно передает суть: это не внешняя цензура, а вшитый в модель механизм, удерживающий ее от социально опасных ответов.
О термине «аблитерация» (abliteration): Это контаминация слов ablation (абляция — хирургическое удаление) и obliteration (уничтожение, стирание). Автор инструмента Heretic сознательно создал этот неологизм. «Аблитерация», сохраняет корень «абляция» (устоявшийся термин в AI-среде, обозначающий удаление отдельных компонентов модели) и добавляя оттенок уничтожения. Термин пока не имеет устоявшегося русского аналога, так что это переводческая калька, которая, вероятно, приживется — или будет вытеснена прямым заимствованием.
О дивергенции KL (Kullback-Leibler divergence): Дивергенция Кульбака-Лейблера — это математическая мера того, насколько одно распределение вероятностей отличается от другого. В контексте Heretic она используется, чтобы при удалении «цензурных» слоев модель как можно меньше теряла в общем интеллекте. Для технически искушенного читателя это важная деталь: инструмент не просто кастрирует модель, а пытается сделать это хирургически аккуратно.
Об Alice: Это не просто абстрактная «группа по безопасности ИИ». Это компания, основанная Ноамом Шварцем, которая занимается аудитом безопасности AI-систем, в том числе тестированием на прочность их предохранителей. Их участие в репортаже — не случайность: это их прямая работа, и их тревога имеет под собой вполне конкретную коммерческую и экспертную основу.
О контексте опенсорса: Инструменты аблитерации работают только с открытыми моделями, которые можно скачать и запустить на своем компьютере. ChatGPT, Claude, Gemini — это проприетарные модели, доступные через API; их внутренности скрыты, и Heretic к ним неприменим. Однако граница между открытыми и закрытыми моделями стремительно размывается. Так что тревога экспертов вполне обоснована.
О рицине: Упоминание рицина — сильного токсина, получаемого из клещевины, — не случайно. Расчет дозировки по массе тела — это ровно тот тип запроса, на который стандартные предохранители обучены отвечать отказом. Когда модель после аблитерации выдает точные цифры, это уже не «гипотетический риск», а конкретная угроза биотерроризма.
О реакции Google и Meta: Google ответил сдержанно-дипломатично: дескать, «известная проблема, мы работаем». Отказ Meta от комментариев, с другой стороны, можно трактовать по-разному — возможно, у них просто нет готового публичного ответа на ситуацию, в которой их флагманская открытая модель оказывается самым легкодоступным кандидатом на аблитерацию.
Об авторе Heretic: Филипп Эмануэль Вайдман — фигура, которая теперь наверняка окажется в перекрестье прицелов ИИ-регуляторов. Важно понимать: он не создавал Heretic в каком-то криминальном подполье. Инструмент выложен открыто на GitHub, с документацией и описанием метода. Это часть более широкой идеологии «открытого ИИ», где любой исследователь или энтузиаст имеет право изучать и модифицировать модели. Однако, как и в случае с уязвимостями нулевого дня в софтверной безопасности, публикация такого инструмента создает асимметричную угрозу: защитники должны успеть везде, а атакующий выбирает одну точку.

«Джинн выпущен из бутылки»: Новые инструменты снимают защитные барьеры ИИ за считанные минуты

Должен ли ИИ быть полностью открытым (Open Source) со всеми вытекающими рисками, или его должны жестко контролировать мегакорпорации?

Описание из репозитория GitHub:

Примечания:

Рекомендации для погружения в тему:

Добавить комментарий


Имя обязательно	E-mail обязательно