Mercury 2 — LLM на диффузии с 1000 токенов/сек

Inception Labs показали Mercury 2 — языковую модель на основе диффузии, которая выдаёт больше 1000 токенов в секунду. Разбираемся, как это работает и зачем нужна.

Pavel Matveev

27 февр. 2026 — 4 min read

TL;DR: Mercury 2 от Inception Labs — первая коммерческая LLM на основе диффузии, а не привычной авторегрессии. Генерирует 1009 токенов в секунду на NVIDIA Blackwell — это в 5 раз быстрее Claude Haiku и GPT-5 Mini. Стоит $0.25 за миллион входных токенов.

Все современные LLM работают одинаково: генерируют текст по одному токену, слева направо, как печатная машинка. Mercury 2 делает по-другому — модель уточняет сразу несколько токенов параллельно, больше похоже на редактора, который правит весь черновик целиком. Причём это не просто красивое сравнение — архитектура генерации у модели действительно другая.

Что такое диффузионная LLM?

Обычные модели — авторегрессионные. Каждый следующий токен зависит от предыдущего, поэтому генерация идёт строго последовательно. Хочешь быстрее — нужен либо более мощный GPU, либо более компактная модель. Ускорить сам процесс генерации при этом подходе физически сложно.

Mercury 2 использует диффузию — тот же принцип, что в генерации картинок (Stable Diffusion, DALL-E). Только вместо пикселей модель работает с токенами. Она берёт «шумный» черновик ответа и за несколько шагов уточняет его до финального текста, обрабатывая все позиции одновременно.

По данным Inception Labs, на GPU NVIDIA Blackwell Mercury 2 выдаёт 1009 токенов/сек. Для сравнения: Claude 4.5 Haiku Reasoning — около 89 токенов/сек, GPT-5 Mini — примерно 71 токен/сек.

Характеристики Mercury 2

Параметр	Значение
Скорость	1009 токенов/сек (NVIDIA Blackwell)
Цена (вход)	$0.25 / 1M токенов
Цена (выход)	$0.75 / 1M токенов
Контекст	128K токенов
Reasoning	Настраиваемая глубина
Tool use	Нативная поддержка
JSON	Schema-aligned вывод
API	OpenAI-совместимый

Бенчмарки Mercury 2 — скорость генерации

Цена тоже приятная. $0.25 за миллион входных токенов — это дешевле большинства speed-optimized моделей. Для задач, где нужно гонять тысячи запросов (агентские пайплайны, RAG, извлечение данных), экономия набегает существенная.

Качество — на уровне быстрых моделей

Скорость — это круто, но бесполезно, если модель отвечает ерунду. По бенчмаркам Mercury 2 конкурирует с Claude Haiku и GPT-5 Mini:

Бенчмарки Mercury 2 — качество на задачах reasoning

До уровня Claude Opus или GPT-5 модель не дотягивает, и это ожидаемо. Mercury 2 заточена под другое: скорость при достаточном качестве. Для глубокого рассуждения над сложной задачей — бери модели побольше.

Где это реально нужно?

Код и автодополнение

Для IDE-подсказок и автокомплита латентность критична. Макс Брунсфелд, сооснователь Zed, говорит: «Подсказки приходят достаточно быстро, чтобы казаться частью собственного мышления, а не чем-то, чего ждёшь». Разработчики Zed уже тестируют Mercury 2 в своём редакторе.

Агентские пайплайны

Когда AI-агент делает 20-50 вызовов модели за одну задачу, каждая секунда задержки множится. Сухинтан Сингх, CTO Skyvern, утверждает: «Mercury 2 минимум вдвое быстрее GPT-5.2, и для нас это меняет правила игры».

Голосовые интерфейсы

Если ты когда-нибудь разговаривал с голосовым ассистентом, который думает по две секунды над каждой репликой — знаешь, насколько это раздражает. Бюджет по латентности тут самый жёсткий: 300-500 мс, иначе диалог разваливается. Mercury 2 вписывается в эти рамки с reasoning-качеством, и это, пожалуй, самый впечатляющий кейс.

RAG и поисковые пайплайны

Когда поисковый пайплайн включает мультишаговый поиск, ранжирование и суммаризацию, задержки складываются на каждом шаге. Я сам сталкивался с тем, что добавление reasoning-модели в RAG-цепочку увеличивало время ответа втрое. С Mercury 2 такой шаг можно добавить, почти не теряя в скорости.

Интеграция — через OpenAI API

Mercury 2 совместима с OpenAI API, то есть можно подставить её в существующий стек без переписывания кода. Просто меняешь endpoint и model name — всё остальное работает как раньше.

Если нагрузка серьёзная, у Inception Labs есть программа для корпоративных клиентов — помогут протестировать под конкретные сценарии.

Чем это отличается от просто «быстрой модели»?

Тут важно понимать разницу. Обычно «быстрая модель» — это компактная авторегрессионная модель с меньшим количеством параметров. Она быстрее за счёт размера, но теряет в качестве пропорционально.

Mercury 2 быстрее за счёт другой архитектуры генерации. Диффузия позволяет масштабировать скорость без пропорциональной потери качества — потому что ты параллелишь не вычисления, а сам процесс декодирования. По сути, совсем другой принцип.

Думаю, если диффузионные LLM покажут себя стабильно — это может стать таким же сдвигом, как переход от RNN к трансформерам. Но пока Mercury 2 — первый коммерческий продукт такого типа, и мне не хватает данных, чтобы уверенно говорить о надёжности в долгосрочном продакшене.

Вывод

Mercury 2 — интересная штука. Первая серьёзная попытка уйти от авторегрессии в текстовой генерации, и результат впечатляет: 1000 токенов в секунду при адекватной цене и совместимости с OpenAI API.

Понятно, что уровня Opus или полноценного GPT-5 в сложных reasoning-задачах ждать не стоит. Но для агентских пайплайнов, кодинга и голосовых интерфейсов — мне сложно назвать что-то быстрее прямо сейчас.

Что ещё почитать

Taalas HC1: AI-модель стала чипом — 17 000 токенов/сек — ещё один подход к ускорению: модель, вшитая прямо в кремний
Nano Banana 2: качество Pro на скорости Flash — Google тоже гонит скорость, но остаётся в авторегрессии
Claude Sonnet 4.6 — обзор новой модели Anthropic — для сравнения с reasoning-моделями побольше

FAQ

Чем Mercury 2 отличается от обычных LLM? Mercury 2 использует диффузионную архитектуру вместо авторегрессии. Модель генерирует несколько токенов параллельно, а не по одному последовательно. Это даёт пятикратное преимущество в скорости при сопоставимом качестве с Claude Haiku и GPT-5 Mini.

Можно ли использовать Mercury 2 вместо GPT или Claude? Зависит от задачи. Для сложного reasoning и длинных цепочек рассуждений лучше подойдут Opus или GPT-5. А вот для агентских пайплайнов, автокомплита кода, голосовых ассистентов и RAG-систем — Mercury 2 будет быстрее и дешевле.

Как подключить Mercury 2 к своему проекту? Mercury 2 совместима с OpenAI API. Меняешь endpoint и название модели в конфиге — и всё. Дополнительные SDK или библиотеки не нужны. Цена — $0.25 за миллион входных и $0.75 за миллион выходных токенов.