Gemma 4: открытые модели Google на технологиях Gemini 3
Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров на технологиях Gemini 3. 31B занимает третье место среди открытых моделей, а E2B работает на Raspberry Pi за 1.5 ГБ памяти.
TL;DR: Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров, построенные на технологиях Gemini 3. 31B-версия заняла третье место среди всех открытых моделей в рейтинге Arena AI, MoE на 26B обгоняет модели в 20 раз крупнее, а маленькие E2B и E4B работают на телефоне и Raspberry Pi. Лицензия Apache 2.0.
Четыре модели на все случаи
Gemma 4 — это не одна модель, а семейство из четырёх вариантов с очень разной архитектурой:
| Модель | Параметры | Активные | Архитектура | Контекст |
|---|---|---|---|---|
| E2B | 5.1B (2.3B effective) | все | Dense | 128K |
| E4B | 8B (4.5B effective) | все | Dense | 128K |
| 26B A4B | 25.2B | 3.8B | MoE (128 экспертов, 8 активных) | 256K |
| 31B | 30.7B | все | Dense | 256K |
Самое интересное тут — 26B MoE. При 25 миллиардах параметров в момент инференса работают только 3.8B. По сути, ты получаешь качество большой модели за цену маленькой. Google заявляет, что эта версия обходит модели в 20 раз крупнее на ряде бенчмарков. А E2B запускается в менее чем 1.5 ГБ оперативной памяти — это уровень бюджетного смартфона.
Все модели используют гибридный механизм внимания, который чередует локальное sliding window attention с полным глобальным вниманием. Обучены на 140+ языках, включая русский.
Бенчмарки: математика и код
Главный прогресс Gemma 4 — в математике и коде. Сравнение с Gemma 3 27B показывает масштаб:
| Бенчмарк | 31B | 26B MoE | E4B | E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| AIME 2026 (математика) | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 (код) | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| GPQA Diamond (наука) | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| MMLU Pro (общие знания) | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| τ2-bench (агентное использование) | 86.4% | 85.5% | 57.5% | 29.4% | 6.6% |
AIME 2026 — с 20.8% до 89.2%, рост в четыре с лишним раза. В кодинге тоже кратный скачок: с 29.1% до 80.0% на LiveCodeBench. А τ2-bench (агентное использование инструментов) вообще выглядит как другая модель: с 6.6% у Gemma 3 до 86.4% у Gemma 4 31B.
31B Dense сейчас третья среди всех открытых моделей в рейтинге Arena AI с ELO 1452. 26B MoE на шестом месте с 1441. Напомню: у неё в момент работы активны только 3.8B параметров.
На Codeforces 31B набирает ELO 2150, что примерно соответствует уровню «эксперт». Для открытой модели на 30B параметров — это серьёзная заявка.
Мультимодальность: не только текст
Все четыре модели понимают изображения и видео (как последовательность кадров). Но есть нюанс: аудио поддерживают только маленькие E2B и E4B.
| Модель | Текст | Изображения | Видео | Аудио |
|---|---|---|---|---|
| E2B/E4B | + | + | + (кадры) | + |
| 26B/31B | + | + | + (кадры) | — |
Выглядит как осознанное решение: маленькие модели для edge-устройств должны уметь слышать (голосовые команды, распознавание речи), а большие модели для серверов работают с текстом и визуалом. На визуальных бенчмарках результаты тоже хорошие: MMMU Pro 76.9% у 31B, MATH-Vision 85.6%.
Ограничения по входу: аудио до 30 секунд, видео до 60 секунд (один кадр в секунду). Для анализа длинных видео не подойдёт, но для быстрого разбора коротких клипов — вполне.
Агентные возможности из коробки
Главный акцент Google — агентное использование. Gemma 4 умеет:
- Нативный function calling, когда модель сама формирует вызовы функций и обрабатывает результаты
- Генерация валидного JSON через constrained decoding
- Поддержка системных промптов для настройки агента
- Цепочки рассуждений с промежуточными шагами (multi-step planning)
Режим thinking включается через специальный токен <|think|>, и модель начинает «рассуждать вслух» перед ответом. По формату это похоже на то, как работают reasoning-модели от OpenAI и DeepSeek.
На τ2-bench (бенчмарк агентного использования в ритейл-сценариях) 31B набирает 86.4%. Gemma 3 27B набирала 6.6%. Предыдущее поколение просто не умело работать с инструментами, а текущее, похоже, умеет.
Работает на чём угодно
E2B и E4B оптимизированы для запуска на edge-устройствах. Google разрабатывал их совместно с командами Pixel, Qualcomm и MediaTek. Конкретные цифры:
- На Raspberry Pi 5 E2B выдаёт 133 токена/сек на prefill и 7.6 токенов/сек на decode
- E2B влезает в 1.5 ГБ памяти с 2-bit и 4-bit квантизацией
- Платформы: Android, iOS, Windows, Linux, macOS, WebGPU в браузере, Raspberry Pi, Qualcomm IQ8 NPU, Jetson Nano
Для больших моделей 26B и 31B нужна дискретная GPU. Google говорит, что они «оптимизированы для потребительских видеокарт», но конкретные требования по VRAM не указывает. Ориентир: 31B Dense в fp16 потребует около 60 ГБ VRAM, с квантизацией до 4-bit — уместится в 16-20 ГБ.
Скачать можно через Hugging Face, Kaggle, Ollama, или LM Studio. Большие модели также доступны в Google AI Studio.
Apache 2.0: используй как хочешь
Google перешёл с кастомной лицензии Gemma на Apache 2.0. Это полная свобода: коммерческое использование, модификация, дистрибуция — без ограничений. Для сравнения, Meta Llama до сих пор использует собственную лицензию с ограничениями для компаний с 700M+ пользователей.
Для бизнеса это удобно: не надо разбираться в нюансах кастомных лицензий, читать мелкий шрифт и переживать за compliance.
Что с конкурентами
Объективно, Gemma 4 31B — одна из лучших открытых моделей в своём размерном классе. Третье место в Arena AI, сильная математика и код. Но есть контекст: по данным Trending Topics EU, китайские конкуренты (DeepSeek, Qwen) в некоторых задачах всё ещё впереди. Особенно в кодинге, где модели типа DeepSeek-V3 с их MoE-архитектурой и сотнями миллиардов параметров играют в другой лиге.
Зато в категории «модели для edge» у Gemma 4 E2B и E4B конкурентов почти нет. Мультимодальная модель с аудио и видео на Raspberry Pi за 1.5 ГБ памяти — попробуйте найти что-то сравнимое.
Что ещё почитать
- Gemini 3.1 Flash Live: голосовые агенты Google стали точнее — предыдущий релиз Google в области AI
- Gemini 3.1 Pro: что нового в модели Google — флагманская модель Gemini, на технологиях которой построена Gemma 4
- Jina VLM: мультиязычная VLM на 2.4B параметров — ещё одна компактная мультимодальная модель для сравнения
- MiniMax M2.7: модель, которая сама себя обучала — альтернативный подход к обучению открытых моделей