Gemma 4: открытые модели Google на технологиях Gemini 3

Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров на технологиях Gemini 3. 31B занимает третье место среди открытых моделей, а E2B работает на Raspberry Pi за 1.5 ГБ памяти.

Gemma 4: открытые модели Google на технологиях Gemini 3
TL;DR: Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров, построенные на технологиях Gemini 3. 31B-версия заняла третье место среди всех открытых моделей в рейтинге Arena AI, MoE на 26B обгоняет модели в 20 раз крупнее, а маленькие E2B и E4B работают на телефоне и Raspberry Pi. Лицензия Apache 2.0.

Четыре модели на все случаи

Gemma 4 — это не одна модель, а семейство из четырёх вариантов с очень разной архитектурой:

Модель Параметры Активные Архитектура Контекст
E2B 5.1B (2.3B effective) все Dense 128K
E4B 8B (4.5B effective) все Dense 128K
26B A4B 25.2B 3.8B MoE (128 экспертов, 8 активных) 256K
31B 30.7B все Dense 256K

Самое интересное тут — 26B MoE. При 25 миллиардах параметров в момент инференса работают только 3.8B. По сути, ты получаешь качество большой модели за цену маленькой. Google заявляет, что эта версия обходит модели в 20 раз крупнее на ряде бенчмарков. А E2B запускается в менее чем 1.5 ГБ оперативной памяти — это уровень бюджетного смартфона.

Все модели используют гибридный механизм внимания, который чередует локальное sliding window attention с полным глобальным вниманием. Обучены на 140+ языках, включая русский.

Бенчмарки: математика и код

Главный прогресс Gemma 4 — в математике и коде. Сравнение с Gemma 3 27B показывает масштаб:

Бенчмарк 31B 26B MoE E4B E2B Gemma 3 27B
AIME 2026 (математика) 89.2% 88.3% 42.5% 37.5% 20.8%
LiveCodeBench v6 (код) 80.0% 77.1% 52.0% 44.0% 29.1%
GPQA Diamond (наука) 84.3% 82.3% 58.6% 43.4% 42.4%
MMLU Pro (общие знания) 85.2% 82.6% 69.4% 60.0% 67.6%
τ2-bench (агентное использование) 86.4% 85.5% 57.5% 29.4% 6.6%

AIME 2026 — с 20.8% до 89.2%, рост в четыре с лишним раза. В кодинге тоже кратный скачок: с 29.1% до 80.0% на LiveCodeBench. А τ2-bench (агентное использование инструментов) вообще выглядит как другая модель: с 6.6% у Gemma 3 до 86.4% у Gemma 4 31B.

31B Dense сейчас третья среди всех открытых моделей в рейтинге Arena AI с ELO 1452. 26B MoE на шестом месте с 1441. Напомню: у неё в момент работы активны только 3.8B параметров.

На Codeforces 31B набирает ELO 2150, что примерно соответствует уровню «эксперт». Для открытой модели на 30B параметров — это серьёзная заявка.

Мультимодальность: не только текст

Все четыре модели понимают изображения и видео (как последовательность кадров). Но есть нюанс: аудио поддерживают только маленькие E2B и E4B.

Модель Текст Изображения Видео Аудио
E2B/E4B + + + (кадры) +
26B/31B + + + (кадры)

Выглядит как осознанное решение: маленькие модели для edge-устройств должны уметь слышать (голосовые команды, распознавание речи), а большие модели для серверов работают с текстом и визуалом. На визуальных бенчмарках результаты тоже хорошие: MMMU Pro 76.9% у 31B, MATH-Vision 85.6%.

Ограничения по входу: аудио до 30 секунд, видео до 60 секунд (один кадр в секунду). Для анализа длинных видео не подойдёт, но для быстрого разбора коротких клипов — вполне.

Агентные возможности из коробки

Главный акцент Google — агентное использование. Gemma 4 умеет:

  • Нативный function calling, когда модель сама формирует вызовы функций и обрабатывает результаты
  • Генерация валидного JSON через constrained decoding
  • Поддержка системных промптов для настройки агента
  • Цепочки рассуждений с промежуточными шагами (multi-step planning)

Режим thinking включается через специальный токен <|think|>, и модель начинает «рассуждать вслух» перед ответом. По формату это похоже на то, как работают reasoning-модели от OpenAI и DeepSeek.

На τ2-bench (бенчмарк агентного использования в ритейл-сценариях) 31B набирает 86.4%. Gemma 3 27B набирала 6.6%. Предыдущее поколение просто не умело работать с инструментами, а текущее, похоже, умеет.

Работает на чём угодно

E2B и E4B оптимизированы для запуска на edge-устройствах. Google разрабатывал их совместно с командами Pixel, Qualcomm и MediaTek. Конкретные цифры:

  • На Raspberry Pi 5 E2B выдаёт 133 токена/сек на prefill и 7.6 токенов/сек на decode
  • E2B влезает в 1.5 ГБ памяти с 2-bit и 4-bit квантизацией
  • Платформы: Android, iOS, Windows, Linux, macOS, WebGPU в браузере, Raspberry Pi, Qualcomm IQ8 NPU, Jetson Nano

Для больших моделей 26B и 31B нужна дискретная GPU. Google говорит, что они «оптимизированы для потребительских видеокарт», но конкретные требования по VRAM не указывает. Ориентир: 31B Dense в fp16 потребует около 60 ГБ VRAM, с квантизацией до 4-bit — уместится в 16-20 ГБ.

Скачать можно через Hugging Face, Kaggle, Ollama, или LM Studio. Большие модели также доступны в Google AI Studio.

Apache 2.0: используй как хочешь

Google перешёл с кастомной лицензии Gemma на Apache 2.0. Это полная свобода: коммерческое использование, модификация, дистрибуция — без ограничений. Для сравнения, Meta Llama до сих пор использует собственную лицензию с ограничениями для компаний с 700M+ пользователей.

Для бизнеса это удобно: не надо разбираться в нюансах кастомных лицензий, читать мелкий шрифт и переживать за compliance.

Разбираю открытые модели, агентные фреймворки и AI-инструменты для разработки — подписывайся в телеге.

Что с конкурентами

Объективно, Gemma 4 31B — одна из лучших открытых моделей в своём размерном классе. Третье место в Arena AI, сильная математика и код. Но есть контекст: по данным Trending Topics EU, китайские конкуренты (DeepSeek, Qwen) в некоторых задачах всё ещё впереди. Особенно в кодинге, где модели типа DeepSeek-V3 с их MoE-архитектурой и сотнями миллиардов параметров играют в другой лиге.

Зато в категории «модели для edge» у Gemma 4 E2B и E4B конкурентов почти нет. Мультимодальная модель с аудио и видео на Raspberry Pi за 1.5 ГБ памяти — попробуйте найти что-то сравнимое.

Что ещё почитать