GPT пишет, Claude критикует — Microsoft объединила две главные нейросети мира в один суперинструмент
Microsoft заставила GPT и Claude работать вместе — и результат превзошел все существующие ИИ-инструменты для ресерча
Новая функция Copilot Researcher заставляет GPT и Claude выполнять задачи последовательно. И эта комбинация только что обошла все доступные на рынке ИИ-системы.
Глубокий ресерч с помощью ИИ (Deep Research) стал одной из самых жарких тем в технологической гонке вооружений этого года. Google анонсировала своего ресерч-агента для Gemini в декабре 2024 года, OpenAI выпустила свой аналог в феврале 2025-го, xAI последовала их примеру, Perplexity удвоила усилия, а Claude от Anthropic, представив своего агента в апреле прошлого года, собрал преданную аудиторию среди профессионалов, которым нужны детальные ответы с точными ссылками на источники.
Каждая компания пыталась убедить нас в том, что именно ее ИИ-модель — самый умный исследователь в комнате. И тут Microsoft заявила: а зачем выбирать кого-то одного?
В понедельник компания анонсировала две новые функции для инструмента Copilot Researcher — Critique («Критика») и Council («Совет»). Они заставляют GPT от OpenAI и Claude от Anthropic работать над одной и той же исследовательской задачей последовательно. Согласно внутреннему тестированию Microsoft по отраслевым бенчмаркам, итоговый результат обходит любую систему из тех, что участвовали в тесте, включая флагманские модели от топовых ИИ-компаний.
«Представляем Critique — новую мультимодельную систему глубокого ресерча в M365 Copilot. Вы можете использовать несколько моделей вместе для генерации оптимальных ответов и отчетов», — написал Сатья Наделла в соцсети X, 30 марта 2026 года.
— Critique — это новая мультимодельная система глубокого ресерча, созданная для комплексных исследовательских задач. Она отделяет процесс генерации от процесса оценки и использует комбинацию передовых моделей (Frontier models), включая разработки Anthropic и OpenAI, — поясняют в Microsoft. — Первая модель руководит фазой генерации: она планирует задачу, осуществляет циклический поиск информации (retrieval) и выдает первоначальный черновик. Вторая модель фокусируется на проверке и доработке, выступая в роли эксперта-рецензента до того, как будет сформирован итоговый отчет.
Вот базовая проблема, которую призван решить инструмент Critique: сегодня каждый ИИ-инструмент для ресерча работает по одному и тому же принципу. Вы задаете вопрос, одна модель планирует поиск, шерстит источники, пишет отчет и отдает его вам. Одна-единственная модель делает абсолютно всё, и никто не проверяет ее работу. Из-за этого в результаты могут проскользнуть галлюцинации, ошибки в цитировании, фейковые или неточные утверждения.
Critique разбивает этот рабочий процесс надвое. GPT берет на себя первую фазу: планирует исследование, собирает источники и пишет черновик. Затем в дело вступает Claude в роли строгого редактора, проверяя отчет на фактическую точность, качество ссылок и на то, действительно ли ответ решает поставленную пользователем задачу. И только после этой проверки итоговый отчет попадает к человеку. В Microsoft отмечают, что со временем роли можно будет поменять местами (Claude пишет черновик, а GPT критикует), хотя на данный момент первым всегда выступает GPT.
В бенчмарке DRACO — стандартизированном тесте, охватывающем 100 сложных исследовательских задач в 10 областях (включая медицину, право и технологии) — Copilot с включенной функцией Critique набрал 57,4 балла. Для сравнения, Claude Opus 4.6 от Anthropic в одиночку выдает 42,7 балла. Таким образом, комбинированная система Microsoft превосходит ближайший лучший результат почти на 14%. Наибольший прирост был зафиксирован в широте анализа и качестве подачи материала, при этом фактическая точность также продемонстрировала значительное улучшение.
Вторая функция, Council («Совет»), подходит к той же проблеме с другой стороны. Вместо того чтобы одна модель проверяла работу другой, Council запускает GPT и Claude одновременно и выводит их полные отчеты бок о бок. Затем третья модель, выступающая в роли «судьи», читает оба текста и пишет резюме, объясняя: в чем обе нейросети сошлись, где их мнения разошлись, и какие уникальные углы обзора уловила одна модель, но упустила другая. До сих пор пользователям приходилось сравнивать результаты разных ИИ-инструментов вручную.
Иными словами: в Critique модели сотрудничают друг с другом, тогда как в Council — соревнуются.
Critique включен в Researcher по умолчанию, тогда как для активации режима сравнения Council (Model Council) нужно выбрать соответствующий пункт в меню. В настоящее время обе функции доступны пользователям, зарегистрированным в программе Microsoft Frontier — канале раннего доступа к новейшим возможностям Copilot. Для этого требуется лицензия Microsoft 365 Copilot ($30 за пользователя в месяц), но доступ всё равно откроется только после подписки на программу Frontier.
У OpenAI и Microsoft есть многомиллиардное партнерство, но ставка Microsoft сейчас делается на то, что ни одна отдельная модель не сможет долго удерживаться на вершине. Настоящая ценность кроется в слое оркестрации (orchestration layer), который умеет маршрутизировать задачи к той комбинации нейросетей, которая справляется с ними лучше всего.
Примечания:
- Принцип «разделения генерации и оценки» — одна из самых перспективных идей в современной ИИ-архитектуре. Она перекликается с практикой рецензирования в науке (peer review): автор статьи не должен быть её рецензентом. Применение этого принципа к ИИ-моделям снижает риск «самоподтверждающихся галлюцинаций», когда модель генерирует ошибку и сама же признаёт её корректной.
- Стратегический смысл для Microsoft. Заставив GPT и Claude работать вместе, Microsoft посылает мощный сигнал: компания видит себя не как зависимого партнёра OpenAI, а как «оркестратор» всей ИИ-экосистемы. Это перекликается с ранее обсуждавшимся выпуском собственной модели MAI-Image-2 — Microsoft диверсифицирует зависимость от единственного поставщика.
- Бенчмарк DRACO — относительно новый стандарт для оценки ИИ-исследовательских агентов. 100 задач в 10 областях — масштаб, достаточный для статистической значимости, хотя, как и с любым бенчмарком, результаты следует интерпретировать с осторожностью: разные методологии оценки могут давать разные рейтинги.
- Улучшение на 14% — существенный разрыв по меркам ИИ-бенчмарков, где разница между лидерами обычно измеряется долями процента. Это свидетельствует о том, что мультимодельный подход даёт не инкрементальное, а качественное улучшение.
- Аналогия с реальным миром. Подход Critique можно сравнить с работой редакции качественного издания: журналист пишет статью, затем фактчекер проверяет каждое утверждение, а редактор оценивает структуру и полноту. Council — скорее аналог конкурирующих экспертных заключений в суде: обе стороны представляют свои аргументы, а судья синтезирует позиции.
- Стоимость — 30 долларов в месяц на пользователя — может показаться высокой для индивидуальных пользователей, но для корпоративных клиентов (юристов, аналитиков, консультантов), чья почасовая ставка составляет сотни долларов, экономия от мультимодельного исследовательского помощника потенциально огромна.
- Связь с темой прозрачности ИИ. Как показал тест MiMo-V2-Pro с вопросом о «вдове», когда одна модель работает без проверки, она может тихо подменить посылку и уверенно выдать неправильный ответ. Система Critique решает именно эту проблему — вторая модель играет роль «адвоката дьявола».