Gemma 4 ускорили в 3 раза: что такое MTP drafters от Google

Google выпустил Multi-Token Prediction drafters для Gemma 4. Та же модель, та же точность, в три раза быстрее на одном железе.

Gemma 4 ускорили в 3 раза: что такое MTP drafters от Google
TL;DR: Google выпустил MTP drafters для семейства Gemma 4. Это маленькая модель-черновик, которая угадывает следующие несколько токенов одним заходом, а основная модель потом проверяет угадку за один проход. Итог — до 3x ускорения на том же железе, без потери качества. Лицензия Apache 2.0, работает с vLLM, MLX, Hugging Face Transformers, SGLang и Ollama.

Gemma 4 вышла несколько недель назад и за это время её скачали больше 60 миллионов раз. По заявлению Google, это пока их самая способная открытая модель, картинка приличная для тех, кто хочет крутить LLM локально. И вот теперь Google добавил к ней то, чего давно ждали все, кто запускает Gemma на маках и потребительских видеокартах, ускорение через Multi-Token Prediction.

Дальше расскажу, что это вообще значит на пальцах и почему стоит смотреть в сторону MTP, если у тебя инференс упирается в скорость.

Память как главный тормоз LLM

Стандартная инференция большой языковой модели устроена так. Процессор почти всё время не считает, а гоняет миллиарды параметров из VRAM в вычислительные блоки, чтобы выплюнуть один-единственный токен. Compute простаивает, latency растёт, особенно на пользовательских GPU.

Команда Google в статье на блоге пишет, что главный bottleneck именно в memory bandwidth: основное время уходит на перенос параметров, а не на сами вычисления. А самое обидное в том, что модель тратит одинаковое количество вычислений и на угадку очевидного («words» после «Actions speak louder than…»), и на решение сложной логической задачи. На «ага, тут просто вода» уходит столько же FLOPs, сколько на реальные рассуждения. Эту неэффективность MTP и пытается отжать.

Как работает speculative decoding

Идея простая, но красивая. Берём две модели: тяжёлую target (например, Gemma 4 31B) и лёгкую drafter, специально обученную предсказывать сразу несколько токенов вперёд. Drafter угадывает за раз последовательность, а target потом верифицирует её одним forward pass-ом.

Если target соглашается с предсказанием, он принимает всю последовательность сразу и в довесок генерирует ещё один свой токен. Получается, что за время, нужное для одного токена в обычной схеме, ты получаешь несколько драфтовых плюс один бонусный.

Сама техника не новая, её ещё в 2022 предложили исследователи Google в Fast Inference from Transformers via Speculative Decoding. Что нового, так это то, что MTP-головы встроили прямо в семейство Gemma 4 и оптимизировали под конкретные размеры моделей.

Где это реально полезно

Прирост скорости MTP drafters для Gemma 4 на разном железе

Если ты строишь что-то с LLM, скорость инференса часто становится потолком, особенно на ноутах и edge-устройствах. С MTP drafters Gemma 4 даёт несколько понятных выигрышей:

  • Чат и голосовые приложения чувствуются ближе к реалтайму. Ответ начинает течь быстрее, паузы между токенами короче.
  • 26B MoE и 31B Dense крутятся на потребительских GPU и личных машинах с разумной скоростью. Раньше 31B на одной видяхе было больно. Сейчас терпимо.
  • E2B и E4B на телефонах генерируют быстрее и кушают меньше батарейки.
  • Ноль деградации качества. Финальную проверку делает сама Gemma 4, поэтому frontier-class рассуждения остаются те же.

Из любопытного: на Apple Silicon у 26B MoE есть нюанс с роутингом экспертов на batch size 1. Но если поднять batch до 4-8, прирост уходит в район 2.2x локально. То же самое подтверждается на Nvidia A100 при увеличении batch size. Сам пока не гонял в проде, все цифры из бенчмарков Google, но по архитектуре техника проверенная, и нет причин не доверять заявленному 3x на 31B Dense.

Что под капотом

Drafter не живёт сам по себе. Он использует активации target-модели и шарит её KV cache, то есть не пересчитывает контекст, который большая модель уже разобрала. Это экономит и время, и память.

Для edge-моделей E2B и E4B Google добавили эффективный clustering в embedder. Там основной bottleneck это финальный logit, и его пришлось отдельно ускорять.

Кому хочется глубже, у Google есть технический разбор архитектуры MTP с диаграммами KV cache sharing и эмбеддерами.

Как попробовать прямо сейчас

MTP drafters лежат под той же лицензией Apache 2.0, что и сама Gemma 4. То есть можно качать, тюнить, встраивать в свои продукты без хитростей.

Google · Hugging Face
Семейство моделей Gemma 4 и MTP drafters. Веса под лицензией Apache 2.0 — для локального инференса, fine-tuning и встраивания в продукты.
  • Веса лежат на Hugging Face и Kaggle.
  • Запускается через transformers, MLX, vLLM, SGLang, Ollama.
  • На Android и iOS можно потыкать через Google AI Edge Gallery.

Если ты на маке, MLX скорее всего даст самый понятный setup. Для серверного inference подойдут vLLM или SGLang. Для домашнего стенда с парой видях, Ollama.

✈️
Слежу за релизами Google, OpenAI и опенсорс LLM в телеге.

Вывод

MTP drafters добавляются к существующим Gemma 4 как сопровождающая модель-черновик. Эффект ощущается там, где раньше Gemma 4 31B жила медленно: на 4090, RTX 6000, маках с Apple Silicon. Там, где Gemma уже летала, прирост скромнее, но всё равно есть.

Думаю, главная польза тут в формате выпуска. Google выложил готовый артефакт: скачал вечером, запустил, почувствовал прирост. Speculative decoding известен давно, но в комплекте с весами под Apache 2.0 техника перестаёт быть «вот сделай руками» и становится просто фичей. Для всех, кто строит на open-source LLM, это хорошая новость.

Что ещё почитать