Google

Gemini 3.1 Flash-Lite: быстрая и дешёвая модель Google

Google выпустил Gemini 3.1 Flash-Lite — самую быструю и дешёвую модель серии Gemini 3. $0.25 за миллион токенов, thinking levels из коробки и бенчмарки выше конкурентов.

Pavel Matveev

03 мар. 2026 — 3 min read

TL;DR: Google выпустил Gemini 3.1 Flash-Lite — самую быструю и дешёвую модель в линейке Gemini 3. Стоит $0.25 за миллион входных токенов, работает в 2.5 раза быстрее предшественника и обходит конкурентов своего класса по бенчмаркам. Доступна в preview через Google AI Studio и Vertex AI.

Google продолжает расширять линейку Gemini 3. Сегодня вышла модель для тех, кому не нужен гигантский мозг, а нужна скорость и низкий ценник — Gemini 3.1 Flash-Lite.

Сколько стоит и насколько быстрая Gemini 3.1 Flash-Lite

На входе $0.25 за миллион токенов, на выходе $1.50. Первый ответ приходит в 2.5 раза быстрее, чем у предшественника Gemini 2.5 Flash, а скорость генерации выросла на 45% — по данным Artificial Analysis.

Скорость и стоимость Gemini 3.1 Flash-Lite в сравнении с GPT-5 mini, Claude 4.5 Haiku и Grok 4.1 Fast

Для сравнения, Claude 4.5 Haiku стоит дороже, а GPT-5 mini работает медленнее. По соотношению цена/скорость Flash-Lite сейчас выглядит выгоднее конкурентов, хотя надо понимать — это графики от самого Google, так что стоит подождать независимых замеров.

Что показывают бенчмарки?

На Arena.ai модель набрала Elo 1432. Для модели с таким ценником, это серьёзно. По академическим бенчмаркам тоже неплохо:

GPQA Diamond: 86.9% (экспертное рассуждение)
MMMU Pro: 76.8% (мультимодальное понимание)

Сравнительная таблица бенчмарков Gemini 3.1 Flash-Lite с GPT-5 mini, Claude 4.5 Haiku и другими моделями

Google говорит, что Flash-Lite обходит не только одноклассников, но и более крупные модели прошлых поколений вроде Gemini 2.5 Flash.

Thinking levels регулирует, сколько модель думает

Flash-Lite поддерживает thinking levels из коробки, и мне кажется, именно это делает её по-настоящему гибкой. Ты сам выбираешь, сколько модель должна «думать» над задачей. Для классификации или модерации ставишь минимум, и ответ приходит мгновенно. Для генерации UI или сложных инструкций включаешь глубокий режим.

На практике это удобно: не нужно держать две модели для разных типов задач. Одна Flash-Lite покрывает и быстрые, и чуть более вдумчивые запросы.

Для каких задач подходит

Google позиционирует Flash-Lite для массовых операций: перевод, модерация контента, генерация UI-компонентов, разметка данных, симуляции. В общем, всё, где нужно обработать много запросов и не разориться.

Несколько компаний уже попробовали модель. Kolby Nottingham из Latitude говорит, что Flash-Lite следует инструкциям на уровне моделей классом выше. Andrew Carr из Cartwheel хвалит скорость мультимодальной разметки. Kaan Ortabas из HubX отмечает экономию при масштабировании. Понятно, что ранние отзывы часто преувеличенно восторженные, но направление понятно — модель целит в продакшн-задачи с большим объёмом.

Стоит ли пробовать?

Если у тебя есть пайплайны с большим количеством LLM-вызовов, Flash-Lite точно стоит потестировать. Сложный reasoning — не её задача, для этого есть Pro. А вот перевод, классификация, разметка, генерация шаблонов — тут она может сэкономить ощутимые деньги.

Модель доступна в preview в Google AI Studio и Vertex AI.

Что ещё почитать

Gemini 3.1 Pro — что нового в модели Google — старший брат Flash-Lite, обзор флагмана серии
Nano Banana 2: качество Pro на скорости Flash — ещё одна модель Google, оптимизированная под скорость
Mercury 2 — LLM на диффузии с 1000 токенов/сек — альтернативный подход к ускорению генерации
Claude Sonnet 4.6 — обзор новой модели Anthropic — конкурент из лагеря Anthropic

FAQ

Сколько стоит Gemini 3.1 Flash-Lite? Модель стоит $0.25 за миллион входных токенов и $1.50 за миллион выходных. Это одна из самых дешёвых моделей в своём классе, дешевле Claude 4.5 Haiku и GPT-5 mini.

Чем Flash-Lite отличается от Gemini 3.1 Pro? Flash-Lite — лёгкая версия для массовых задач, где важны скорость и цена. Pro — флагман для сложного reasoning и мультимодальных задач. Flash-Lite быстрее и дешевле, Pro — умнее.

Где попробовать Gemini 3.1 Flash-Lite? Модель доступна в preview через Google AI Studio и Vertex AI. Нужен Google-аккаунт и доступ к Gemini API.

Для каких задач лучше всего подходит? Перевод, модерация контента, разметка данных, генерация интерфейсов и любые высоконагруженные пайплайны, где нужна скорость при разумной цене.