Мёртвый интернет? Треть новых сайтов создана ИИ
Исследование под руководством Стэнфордского университета квантифицировало то, что все и так подозревали, — но результаты оказались не совсем такими, как ожидали.
Новое исследование называет цифру того, какая часть интернета сейчас создана ИИ — 35%. Именно такова доля вновь опубликованных веб-сайтов, классифицированных как сгенерированные или созданные при содействии ИИ к середине 2025 года, согласно данным исследования Стэнфордского университета, Имперского колледжа Лондона и Интернет-архива. До запуска ChatGPT в ноябре 2022 года эта доля составляла фактически ноль.
— Масштаб и скорость, с которой ИИ захватил интернет, поражают, — говорит Йонаш Долежал, исследователь Имперского колледжа Лондона и соавтор работы, в интервью 404 Media. — После десятилетий, в течение которых люди формировали интернет, значительная его часть стала определяться ИИ всего за три года.
Исследование под названием «Влияние ИИ-генерированного текста на интернет» опиралось на 33-месячную выборку снимков веб-страниц из Wayback Machine Интернет-архива и использовало ИИ-детектор текста Pangram v3 для классификации каждой страницы.
Исследователи проверили шесть гипотез о том, что контент ИИ делает с интернетом. Только две из них выдержали проверку данными.
Первая: мы превращаемся в орду тупых NPC, действующих одинаково… Или, выражаясь научным языком, — интернет становится семантически менее разнообразным.
ИИ-сгенерированные сайты демонстрировали показатели попарного семантического сходства на 33% выше, чем написанные человеком. Одни и те же идеи продолжают выражаться почти одинаковым образом.
В работе высказывается предположение, что онлайн-окно Овертона может сужаться — не цензурой и не скоординированными кампаниями, а потому, что языковые модели оптимизируются на выдачу текстов, близких к их тренировочному распределению.
Вторая: интернет становится агрессивно жизнерадостным.
ИИ-контент демонстрировал показатели позитивной тональности на 107% выше, чем человеческий. Исследователи связывают это с задокументированной склонностью языковых моделей к лести — обученные на сигналах человеческого одобрения, они производят текст, ощущающийся отфильтрованным, лишённым трений и неустанно оптимистичным.
Интернет, затопленный жизнерадостным, гомогенизированным контентом, может маргинализировать человеческое инакомыслие в массовом масштабе — без того, чтобы кто-либо дёргал за рычаг.
Несмотря на widespread общественное убеждение, исследование не обнаружило статистически значимых доказательств того, что ИИ-контент снижает фактическую точность интернета. Исследователи не выявили значимой корреляции между распространённостью ИИ и частотой фактических ошибок.
Гипотеза о стилистической монокультуре — что ИИ «разглаживает» индивидуальные голоса в единый обобщённый регистр — являлась убеждением, которое респонденты разделяли наиболее прочно (83% согласились). Данные этого не подтвердили. Посимвольный анализ не выявил статистически значимого роста стилистической однородности, связанного с распространённостью ИИ.
Ставки выходят за рамки качества дискурса. При 35% распространённости ИИ теоретический риск коллапса модели — когда будущие модели деградируют после обучения на ИИ-генерированных данных — переходит из области академической обеспокоенности в эмпирическую реальность. Будущие базовые модели, обучаемые на современных веб-скрапах, неизбежно поглотят данные, которые в значительной мере сгенерированы ИИ и измеримо менее семантически разнообразны.
Команда теперь работает с Интернет-архивом над превращением исследования в непрерывный инструмент монитинга в реальном времени, отслеживающий долю ИИ в интернете не как разовый снимок, а на постоянной основе.
Параллельно с исследованием в США был проведён опрос, показавший, что большинство американцев уже верят во все шесть негативных гипотез — включая те, которые данные не подтверждают. Респонденты, редко пользующиеся ИИ, были на 12% более склонны верить в его вред, чем активные пользователи. Приверженцы теории мёртвого интернета, встречайте данные: интернет не мёртв, но 35% того, что новое, — это, вероятно, зомби-контент в каком-то смысле.
Комментарии и рекомендации:
- О методологической надёжности. Исследование заслуживает внимания прежде всего благодаря своему масштабу и временнóму охвату (33 месяца), использованию архивных данных (а не точечных замеров) и проверке нескольких гипотез одновременно. Тот факт, что четыре из шести гипотез не подтвердились, повышает доверие к работе: авторы не искали подтверждения заранее заданным выводам. Однако стоит отметить два ограничения: (а) надёжность Pangram v3 как детектора ИИ-текста не является абсолютной и может давать систематические ошибки; (б) выборка ограничена англоязычными веб-страницами из Internet Archive, что не обязательно репрезентирует весь интернет.
- О парадоксе восприятия. Разрыв между восприятием и данными. Американцы верят в все негативные гипотезы, включая опровергнутые. Это не уникальная для ИИ проблема: подобный разрыв документирован в контексте восприятия преступности (люди переоценивают рост преступности, когда она фактически снижается), миграции (люди переоценивают долю мигрантов в населении) и экономики (люди недооценивают собственное благосостояние). Однако для ИИ-индустрии это имеет практические последствия: общественное восприятие формирует политику, а политика — регулирование.
- О концепции «семантического сужения». Возможно, наиболее тревожный результат исследования — не рост ИИ-контента как такового, а семантическое сужение (33% рост сходства). Если интернет становится местом, где одна и та же мысль воспроизводится одними и теми же словами, это подрывает саму функцию интернета как пространства эпистемического разнообразия — то есть пространства, где сталкиваются различные точки зрения, формируется знание и происходит дискуссия. Это не вопрос «правды vs. лжи», а вопрос «разнообразия vs. однородности» — и, возможно, это более глубокая проблема, чем традиционная обеспокоенность «дезинформацией».
- О коллапсе модели как практической угрозе. Коллапс модели (model collapse) — не абстрактная угроза, а реальная инженерная проблема. Компании, обучающие языковые модели (OpenAI, Anthropic, Google, Яндекс, Мейл.ру и др.), вынуждены решать задачу «очистки» тренировочных данных не только от ИИ-генерированного контента, но, особенно в части РФ, и соблюдать требования ужесточающейся цензуры, что ведёт к деградации российских моделей. Если эта задача не решена, модель деградирует — становится менее точной, менее разнообразной и более «шаблонной». При 35% ИИ-контента в интернете масштаб проблемы возрастает экспоненциально.
- О финальном каламбуре. Dead Internet Theory believers, meet the data — обращение к конспирологам с предложением «познакомиться с данными» — одновременно снисходительное и уважительное. Автор не высмеивает теорию мёртвого интернета, а скорее уточняет её: интернет не «мёртв» в конспирологическом смысле (нет заговора), но «частично мёртв» в эмпирическом (35% нового контента — не-человеческое). Метафора «зомби-контента» — находка: зомби — это существо, которое выглядит живым, но не является таковым.
- О невысказанном. Есть ещё ряд важных вопросов: Как 35% ИИ-контента распределены по типам сайтов (новости, блоги, коммерческие страницы, социальные сети)? Какова региональная специфика (англоязычный интернет vs. остальной мир)? Каковы правовые последствия (обязаны ли сайты маркировать ИИ-контент)? И, наконец, должны ли мы воспринимать 35% как проблему — или это новая нормальность, к которой нужно адаптироваться? Эти вопросы остаются за рамками текста, но каждый из них заслуживает отдельного исследования.