DeepSeek V4 уже здесь — и его Pro-версия стоит на 98% дешевле GPT 5.5 Pro
Китайская лаборатория, потрясшая Уолл-стрит, выпустила свою самую большую и самую эффективную модель — через несколько часов после запуска OpenAI GPT-5.5.
DeepSeek вернулся, и появился через несколько часов после того, как OpenAI выпустила GPT-5.5. Совпадение? Возможно. Но если вы — китайская ИИ-лаборатория, которую правительство США последние три года пытается замедлить экспортными ограничениями на чипы, чувство тайминга у вас затачивается до бритвы.
Лаборатория из Ханчжоу выпустила сегодня предварительные версии DeepSeek-V4-Pro и DeepSeek-V4-Flash — обе с открытыми весами, обе с контекстными окнами в один миллион токенов. Это значит, что вы можете работать с контекстом примерно размером с трилогию «Властелин колец», прежде чем модель рухнет. Обе также значительно дешевле всего сопоставимого на Западе, а для тех, кто способен запускать локально, — бесплатны.
Предыдущая крупная диверсия DeepSeek — R1 в январе 2025 года — стёрла $600 миллиардов с капитализации Nvidia за один день: инвесторы задались вопросом, действительно ли американским компаниям нужны столь гигантские инвестиции для достижения результатов, которых маленькая китайская лаборатория добилась за долю стоимости. V4 — ход иного рода: тише, техничнее и более сфокусирован на эффективности для всех, кто реально строит на ИИ.
Две модели, очень разные задачи
Из двух новых моделей тяжеловес — V4-Pro с 1,6 триллиона параметров в общей сложности. Чтобы оценить масштаб: параметры — это внутренние «настройки» или «клетки мозга», которые модель использует для хранения знаний и распознавания паттернов; чем больше параметров, тем более сложную информацию модель теоретически может вместить. Это делает её крупнейшей open-source-моделью на рынке LLM на сегодняшний день. Размер может показаться абсурдным, пока вы не узнаете, что при каждом инференс-проходе активируется лишь 49 миллиардов из них.
Это трюк Mixture-of-Experts, который DeepSeek оттачивал с версии V3: полная модель лежит на месте, но для любого запроса просыпается лишь релевантная её часть. Больше знаний — тот же счёт за вычисления.
— DeepSeek-V4-Pro-Max — режим максимальных рассуждений DeepSeek-V4-Pro — значительно продвигает знаниевые возможности open-source-моделей, прочно утверждая себя как лучшую доступную open-source-модель на сегодняшний день, — сообщил разработчик в официальной карточке модели на Hugging Face. — Модель демонстрирует производительность высшего эшелона в бенчмарках по программированию и значительно сокращает разрыв с ведущими проприетарными моделями по рассуждению и агентским задачам.
V4-Flash — практичная версия: 284 миллиарда параметров в общей сложности, 13 миллиардов активных. Она спроектирована быть быстрее, дешевле и, по собственным бенчмаркам DeepSeek, «достигает сопоставимой производительности рассуждений с Pro-версией при выделении более крупного бюджета на размышления».
Обе модели поддерживают миллион токенов контекста. Это примерно 750 тысяч слов — практически вся трилогия «Властелин колец» с хвостиком. И это стандартная функция, а не премиальный тариф.
(Не совсем) секретный соус DeepSeek: сделать внимание не ужасным в масштабе
Техническая часть для гиков и всех, кому интересна магия, стоящая за моделью. DeepSeek не скрывает свои секреты, и всё доступно бесплатно — полная статья выложена на GitHub.
Стандартный механизм внимания в ИИ — то, что позволяет модели понимать связи между словами, — имеет жесточайшую проблему масштабирования. Каждый раз, когда вы удваиваете длину контекста, вычислительные затраты примерно учетверяются. Так что запуск модели на миллионе токенов не просто вдвое дороже, чем на 500 тысячах — он вчетверо дороже. Именно поэтому длинный контекст исторически был галочкой, которую лаборатории ставят, а затем молча душат лимитами.
DeepSeek изобрёл два новых типа внимания, чтобы обойти это ограничение. Первый — Compressed Sparse Attention — работает в два этапа. Сначала он сжимает группы токенов — скажем, каждые 4 токена — в единую запись. Затем, вместо того чтобы обращать внимание на все сжатые записи, он использует «Lightning Indexer» для выбора только наиболее релевантных результатов для данного запроса. Модель переходит от внимания к миллиону токенов к вниманию к гораздо меньшему набору самых важных фрагментов — как библиотекарь, который не читает каждую книгу, но точно знает, на какую полку заглянуть.
Второй — Heavily Compressed Attention — более агрессивный. Он сворачивает каждые 128 токенов в единую запись — без разреженного отбора, просто грубое сжатие. Вы теряете тонкие детали, но получаете чрезвычайно дешёвый глобальный обзор. Два типа внимания работают в чередующихся слоях, так что модель получает и детали, и обзор.
Результат, из технической статьи: при одном миллионе токенов V4-Pro использует 27% вычислительных мощностей своего предшественника (V3.2). KV-кэш — память, необходимая модели для отслеживания контекста, — падает до 10% от V3.2. V4-Flash идёт дальше: 10% вычислений, 7% памяти.
Именно это позволило DeepSeek предложить значительно более низкую цену за токен по сравнению с конкурентами при сопоставимых результатах. В долларах: GPT-5.5 запущена вчера по $5 на входе и $30 на выходе за миллион токенов, а GPT-5.5 Pro стоит $30 за миллион входных токенов и $180 за миллион выходных.
DeepSeek V4-Pro — $1,74 на входе и $3,48 на выходе. V4-Flash — $0,14 на входе и $0,28 на выходе. Генеральный директор Cline Сауд Ризван указал: если бы Uber использовал DeepSeek вместо Claude, его бюджет на ИИ в 2026 году — якобы рассчитанный на четыре месяца использования, — хватил бы на семь лет.
Бенчмарки
DeepSeek делает необычную вещь в своём техническом отчёте: публикует разрывы в качестве. Большинство релизов моделей выбирают вишенки — бенчмарки, на которых они побеждают. DeepSeek провёл полное сравнение с GPT-5.4 и Gemini-3.1-Pro, обнаружил, что рассуждения V4-Pro отстают от этих моделей примерно на три-шесть месяцев, и всё равно опубликовал результаты.
Где V4-Pro-Max реально побеждает: Codeforces — бенчмарк по спортивному программированию, оцениваемый как шахматный рейтинг. V4-Pro набрал 3 206, что ставит его примерно на 23-е место среди реальных участников-людей. На Apex Shortlist — тщательно отобранном наборе сложных задач по математике и STEM, — модель достигла 90,2% против 85,9% у Opus 4.6 и 78,1% у GPT-5.4. На SWE-Verified, измеряющем, способна ли модель решать реальные проблемы с GitHub из реальных open-source-репозиториев, — 80,6%, сравнимые с Claude Opus 4.6.
Где отстаёт: бенчмарк многозадачности MMLU-Pro (Gemini-3.1-Pro — 91,0% против 87,5% у V4-Pro), экспертный бенчмарк GPQA Diamond (Gemini — 94,3 против 90,1 у V4-Pro) и Humanity’s Last Exam — бенчмарк уровня аспирантуры, где 44,4% Gemini-3.1-Pro по-прежнему опережают 37,7% у V4-Pro.
По длинному контексту V4-Pro лидирует среди open-source-моделей и обходит Gemini-3.1-Pro на CorpusQA (тест, имитирующий реальный анализ документов при одном миллионе токенов), но проигрывает Claude Opus 4.6 на MRCR — тесте, измеряющем, насколько хорошо модель извлекает конкретные «иголки» из очень длинного «стога сена».
Создана для запуска агентов, а не просто ответов на вопросы
Агентские возможности — вот что делает этот релиз по-настоящему интересным для разработчиков, реально выпускающих продукты.
V4-Pro может работать в Claude Code, OpenCode и других ИИ-инструментах для программирования. По данным внутреннего опроса DeepSeek среди 85 разработчиков, использовавших V4-Pro в качестве основной модели для программирования, 52% заявили, что модель готова стать их моделью по умолчанию, 39% склонялись к «да», и менее 9% ответили «нет». Сотрудники компании утверждают, что модель превосходит Claude Sonnet и приближается к Claude Opus 4.5 по агентским задачам программирования.
Artificial Analysis, проводящий независимую оценку ИИ-моделей на реальных задачах, поставил V4-Pro на первое место среди всех моделей с открытыми весами на GDPval-AA — бенчмарке, тестирующем экономически ценный интеллектуальный труд в сферах финансов, юриспруденции и исследований, оцениваемом по системе Elo. V4-Pro-Max набрал 1 554 Elo, опередив GLM-5.1 (1 535) и MiniMax M2.7 (1 514). Для справки: Claude Opus 4.6 набирает 1 619 на том же бенчмарке — по-прежнему впереди, но разрыв сокращается.
DeepSeek V4 также представляет технологию «чередующегося мышления» (interleaved thinking). В предыдущих моделях, если вы запускали агента, делающего несколько вызовов инструментов — скажем, поиск в интернете, затем запуск кода, затем снова поиск, — контекст рассуждений модели сбрасывался между раундами. На каждом новом шаге модели приходилось восстанавливать ментальную модель с нуля. V4 сохраняет полную цепочку рассуждений через вызовы инструментов, так что 20-шаговый агентский пайплайн не страдает от амнезии на полпути. Это важнее, чем звучит, для всех, кто эксплуатирует сложные автоматизированные рабочие процессы.
DeepSeek и американско-китайская ИИ-война
США ограничивают экспорт высокопроизводительных чипов Nvidia в Китай с 2022 года. Заявленная цель — замедлить китайское ИИ-развитие, но эмбарго на чипы не остановило DeepSeek, а заставило его изобрести более эффективную архитектуру и выстроить отечественную цепочку поставок оборудования.
DeepSeek выпустила V4 не в вакууме — пространство ИИ кипит активностью в последнее время. Anthropic представила Claude Opus 4.7 16 апреля — модель, которую протестировали и нашли сильной в программировании и рассуждениях, но с заметно высоким расходом токенов. Днём ранее Anthropic также держала в запасе Claude Mythos — кибербезопасную модель, которую, по её словам, нельзя выпустить публично, потому что она слишком хорошо справляется с автономными сетевыми атаками.
Xiaomi выпустила MiMo V2.5 Pro 22 апреля, перейдя на полноценный мультимодальный режим — изображения, аудио, видео. Стоит $1 на входе и $3 на выходе за миллион токенов. Совпадает с Opus 4.6 по большинству бенчмарков по программированию. Три месяца назад никто не говорил о Xiaomi как о компании передового ИИ. Теперь она выпускает конкурентоспособные модели быстрее большинства западных лабораторий.
GPT-5.5 от OpenAI приземлилась вчера с ценами, взлетевшими до $180 за миллион выходных токенов в Pro-версии. Она опережает V4-Pro на Terminal Bench 2.0 (82,7% против 70,0%), тестирующем сложные агентские рабочие процессы командной строки. Но обходится значительно дороже V4-Pro при сопоставимых задачах. В тот же день Tencent выпустила Hy3 — ещё одну модель передового уровня, ориентированную на эффективность.
Что это значит для вас
При таком количестве новых моделей вопрос, который разработчики реально задают: когда премиум оправдан?
Для корпоративного сектора математика могла измениться. Модель, лидирующая в open-source-бенчмарках по $1,74 за миллион входных токенов, означает, что масштабная обработка документов, юридический аудит или пайплайны генерации кода, которые полгода назад были дорогими, теперь значительно дешевле. Миллионный контекст позволяет скармливать целые кодовые базы или нормативные документы в одном запросе вместо разбивки на несколько обращений.
Кроме того, open-source-природа модели означает, что её можно не только запускать бесплатно на локальном оборудовании, но и кастомизировать и улучшать под нужды и сценарии конкретной компании.
Для разработчиков и одиночных билдеров V4-Flash — модель, на которую стоит обратить внимание. При $0,14 на входе и $0,28 на выходе она дешевле моделей, которые ещё год назад считались бюджетными вариантами, — и справляется с большинством задач на уровне Pro-версии. Существующие эндпоинты deepseek-chat и deepseek-reasoner уже маршрутизируют на V4-Flash в режимах без размышлений и с размышлениями соответственно, так что если вы на API, вы уже ею пользуетесь.
На данный момент модели работают только с текстом. DeepSeek заявляет о разработке мультимодальных возможностей, что означает: другие крупные лаборатории — от Xiaomi до OpenAI — пока сохраняют это преимущество. Обе модели распространяются под лицензией MIT и доступны на Hugging Face уже сегодня. Старые эндпоинты deepseek-chat и deepseek-reasoner прекращают работу 24 июля 2026 года.
Ключевые понятия:
- Параметры — внутренние переменные модели, определяющие её «знания». 1,6 триллиона параметров — рекорд для open-source-модели. Для сравнения: GPT-4 (2023) оценивался примерно в 1,8 трлн, но это проприетарная модель.
- Mixture-of-Experts (MoE) — архитектура, при которой полная модель состоит из множества «экспертов», но при каждом запросе активируется лишь часть из них. Это позволяет иметь огромную модель с умеренными затратами на инференс.
- Контекстное окно в 1M токенов — возможность «видеть» за один раз текст объёмом около 750 000 слов. Стандарт для топовых моделей 2025 года.
- KV-кэш — механизм памяти, позволяющий модели отслеживать контекст разговора. Его объём — критическое ограничение при работе с длинными контекстами.
- Compressed Sparse Attention и Heavily Compressed Attention — два новых типа внимания, изобретённых DeepSeek для обхода проблемы квадратичного масштабирования стандартного внимания.
- Interleaved thinking — способность сохранять цепочку рассуждений через несколько вызовов инструментов. Критически важно для агентских пайплайнов.
Ценовой анализ:
GPT-5.5 Pro стоит в 103 раза дороже DeepSeek V4-Pro на входе и в 51 раз дороже на выходе. Это колоссальный разрыв.
Геополитический контекст:
- Эмбарго на чипы — с 2022 года США ограничивают продажу в Китай передовых GPU Nvidia (A100, H100, H200). Цель — замедлить китайское ИИ-развитие. Результат парадоксален: ограничения заставили китайские лаборатории оптимизировать архитектуры, что привело к появлению моделей, работающих значительно эффективнее западных аналогов.
- $600 млрд от Nvidia — в январе 2025 года релиз DeepSeek R1 (модели, конкурирующей с GPT-4 и Claude при ничтожной доле затрат) вызвал панику на Уолл-стрит: инвесторы решили, что многомиллиардные инвестиции американских компаний в ИИ могут быть неоправданными.
- Hugging Face — крупнейшая платформа для публикации и распространения ИИ-моделей. Именно здесь DeepSeek публикует свои модели.
Феномен DeepSeek:
DeepSeek — подразделение китайского хедж-фонда High-Flyer Capital Management. Основана в 2023 году. За два года прошла путь от никому не известной лаборатории до компании, чьи модели конкурируют с OpenAI и Anthropic.
Ключевые факторы успеха:
- Фокус на эффективности (вызван ограничениями на чипы),
- Open-source-стратегия (привлекает разработчиков по всему миру),
- Агрессивное ценообразование (демпинг для захвата рынка),
- Быстрый цикл релизов (от V3 до V4 — менее года).
Кому важно прочитать:
- Разработчикам, работающим с ИИ-моделями и выбирающим между провайдерами,
- Инвесторам в технологический сектор,
- Интересующимся геополитикой технологий и войной США и Китая за ИИ-лидерство,
- Специалистам по информационной безопасности (в свете истории с Claude Mythos).
Для углубления:
- Официальный технический отчёт DeepSeek V4 (доступен на GitHub),
- Artificial Analysis (artificialanalysis.ai) — независимые бенчмарки,
- Отчёты SemiAnalysis — лучший источник по архитектуре китайских ИИ-моделей.