Google

Gemma 4: открытые модели Google на технологиях Gemini 3

Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров на технологиях Gemini 3. 31B занимает третье место среди открытых моделей, а E2B работает на Raspberry Pi за 1.5 ГБ памяти.

Pavel Matveev

03 апр. 2026 — 4 min read

TL;DR: Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров, построенные на технологиях Gemini 3. 31B-версия заняла третье место среди всех открытых моделей в рейтинге Arena AI, MoE на 26B обгоняет модели в 20 раз крупнее, а маленькие E2B и E4B работают на телефоне и Raspberry Pi. Лицензия Apache 2.0.

Четыре модели на все случаи

Gemma 4 — это не одна модель, а семейство из четырёх вариантов с очень разной архитектурой:

Модель	Параметры	Активные	Архитектура	Контекст
E2B	5.1B (2.3B effective)	все	Dense	128K
E4B	8B (4.5B effective)	все	Dense	128K
26B A4B	25.2B	3.8B	MoE (128 экспертов, 8 активных)	256K
31B	30.7B	все	Dense	256K

Самое интересное тут — 26B MoE. При 25 миллиардах параметров в момент инференса работают только 3.8B. По сути, ты получаешь качество большой модели за цену маленькой. Google заявляет, что эта версия обходит модели в 20 раз крупнее на ряде бенчмарков. А E2B запускается в менее чем 1.5 ГБ оперативной памяти — это уровень бюджетного смартфона.

Все модели используют гибридный механизм внимания, который чередует локальное sliding window attention с полным глобальным вниманием. Обучены на 140+ языках, включая русский.

Бенчмарки: математика и код

Главный прогресс Gemma 4 — в математике и коде. Сравнение с Gemma 3 27B показывает масштаб:

Бенчмарк	31B	26B MoE	E4B	E2B	Gemma 3 27B
AIME 2026 (математика)	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6 (код)	80.0%	77.1%	52.0%	44.0%	29.1%
GPQA Diamond (наука)	84.3%	82.3%	58.6%	43.4%	42.4%
MMLU Pro (общие знания)	85.2%	82.6%	69.4%	60.0%	67.6%
τ2-bench (агентное использование)	86.4%	85.5%	57.5%	29.4%	6.6%

AIME 2026 — с 20.8% до 89.2%, рост в четыре с лишним раза. В кодинге тоже кратный скачок: с 29.1% до 80.0% на LiveCodeBench. А τ2-bench (агентное использование инструментов) вообще выглядит как другая модель: с 6.6% у Gemma 3 до 86.4% у Gemma 4 31B.

31B Dense сейчас третья среди всех открытых моделей в рейтинге Arena AI с ELO 1452. 26B MoE на шестом месте с 1441. Напомню: у неё в момент работы активны только 3.8B параметров.

На Codeforces 31B набирает ELO 2150, что примерно соответствует уровню «эксперт». Для открытой модели на 30B параметров — это серьёзная заявка.

Мультимодальность: не только текст

Все четыре модели понимают изображения и видео (как последовательность кадров). Но есть нюанс: аудио поддерживают только маленькие E2B и E4B.

Модель	Текст	Изображения	Видео	Аудио
E2B/E4B	+	+	+ (кадры)	+
26B/31B	+	+	+ (кадры)	—

Выглядит как осознанное решение: маленькие модели для edge-устройств должны уметь слышать (голосовые команды, распознавание речи), а большие модели для серверов работают с текстом и визуалом. На визуальных бенчмарках результаты тоже хорошие: MMMU Pro 76.9% у 31B, MATH-Vision 85.6%.

Ограничения по входу: аудио до 30 секунд, видео до 60 секунд (один кадр в секунду). Для анализа длинных видео не подойдёт, но для быстрого разбора коротких клипов — вполне.

Агентные возможности из коробки

Главный акцент Google — агентное использование. Gemma 4 умеет:

Нативный function calling, когда модель сама формирует вызовы функций и обрабатывает результаты
Генерация валидного JSON через constrained decoding
Поддержка системных промптов для настройки агента
Цепочки рассуждений с промежуточными шагами (multi-step planning)

Режим thinking включается через специальный токен <|think|>, и модель начинает «рассуждать вслух» перед ответом. По формату это похоже на то, как работают reasoning-модели от OpenAI и DeepSeek.

На τ2-bench (бенчмарк агентного использования в ритейл-сценариях) 31B набирает 86.4%. Gemma 3 27B набирала 6.6%. Предыдущее поколение просто не умело работать с инструментами, а текущее, похоже, умеет.

Работает на чём угодно

E2B и E4B оптимизированы для запуска на edge-устройствах. Google разрабатывал их совместно с командами Pixel, Qualcomm и MediaTek. Конкретные цифры:

На Raspberry Pi 5 E2B выдаёт 133 токена/сек на prefill и 7.6 токенов/сек на decode
E2B влезает в 1.5 ГБ памяти с 2-bit и 4-bit квантизацией
Платформы: Android, iOS, Windows, Linux, macOS, WebGPU в браузере, Raspberry Pi, Qualcomm IQ8 NPU, Jetson Nano

Для больших моделей 26B и 31B нужна дискретная GPU. Google говорит, что они «оптимизированы для потребительских видеокарт», но конкретные требования по VRAM не указывает. Ориентир: 31B Dense в fp16 потребует около 60 ГБ VRAM, с квантизацией до 4-bit — уместится в 16-20 ГБ.

Скачать можно через Hugging Face, Kaggle, Ollama, или LM Studio. Большие модели также доступны в Google AI Studio.

Apache 2.0: используй как хочешь

Google перешёл с кастомной лицензии Gemma на Apache 2.0. Это полная свобода: коммерческое использование, модификация, дистрибуция — без ограничений. Для сравнения, Meta Llama до сих пор использует собственную лицензию с ограничениями для компаний с 700M+ пользователей.

Для бизнеса это удобно: не надо разбираться в нюансах кастомных лицензий, читать мелкий шрифт и переживать за compliance.

Разбираю открытые модели, агентные фреймворки и AI-инструменты для разработки — подписывайся в телеге.

Что с конкурентами

Объективно, Gemma 4 31B — одна из лучших открытых моделей в своём размерном классе. Третье место в Arena AI, сильная математика и код. Но есть контекст: по данным Trending Topics EU, китайские конкуренты (DeepSeek, Qwen) в некоторых задачах всё ещё впереди. Особенно в кодинге, где модели типа DeepSeek-V3 с их MoE-архитектурой и сотнями миллиардов параметров играют в другой лиге.

Зато в категории «модели для edge» у Gemma 4 E2B и E4B конкурентов почти нет. Мультимодальная модель с аудио и видео на Raspberry Pi за 1.5 ГБ памяти — попробуйте найти что-то сравнимое.

Что ещё почитать

Gemini 3.1 Flash Live: голосовые агенты Google стали точнее — предыдущий релиз Google в области AI
Gemini 3.1 Pro: что нового в модели Google — флагманская модель Gemini, на технологиях которой построена Gemma 4
Jina VLM: мультиязычная VLM на 2.4B параметров — ещё одна компактная мультимодальная модель для сравнения
MiniMax M2.7: модель, которая сама себя обучала — альтернативный подход к обучению открытых моделей