Gemini 3.1 Flash Live: голосовые агенты Google стали точнее
Google выпустила лучшую аудиомодель в линейке Gemini. Быстрые ответы, понимание интонаций и расширение Search Live на 200+ стран.
TL;DR: Google выпустила Gemini 3.1 Flash Live, самую качественную аудиомодель в семействе. Она быстрее отвечает в голосовых диалогах, лучше понимает тон собеседника и набирает 90.8% на ComplexFuncBench Audio. Search Live теперь работает в 200+ странах.
Если ты следишь за линейкой Gemini, то знаешь: Google обновляет модели как Apple айфоны. Flash-Lite для дешёвых задач, 3.1 Pro для сложного reasoning, теперь Flash Live для голоса. По словам Google, это их лучшая аудиомодель на сегодня.
Где доступна Gemini 3.1 Flash Live
Модель уже работает в трёх направлениях:
- Gemini Live API в Google AI Studio (preview для разработчиков)
- Gemini Enterprise for Customer Experience (для бизнеса)
- Search Live и Gemini Live (для всех)
Google сразу катит модель и в продукты, и в API. Можно протестировать через AI Studio и начать строить голосовых агентов.
Бенчмарки Gemini 3.1 Flash Live
На ComplexFuncBench Audio, который тестирует многошаговый вызов функций с разными ограничениями, модель набирает 90.8%. Это лучший результат среди аудиомоделей.

На Scale AI Audio MultiChallenge результат 36.1% с включённым thinking. Этот бенчмарк специально проверяет сложное следование инструкциям с перебиваниями и паузами, как в реальном разговоре. Число выглядит скромно, но это лидирующий результат.

Ещё одно заметное улучшение: модель лучше распознаёт интонации. Высота голоса, темп речи, раздражение или замешательство собеседника. По сравнению с 2.5 Flash Native Audio модель точнее подстраивает ответ под эмоциональное состояние. Для голосовых агентов в саппорте это критично: если клиент раздражён, а бот отвечает бодрым тоном, это только усугубляет ситуацию.
Голосовые агенты: кто уже тестирует
Для разработчиков voice-агентов это важный релиз. Модель заточена на выполнение сложных задач по голосу: multi-step инструкции и работа в шумном окружении, где предыдущие модели сбивались.
Verizon, The Home Depot и LiveKit уже тестируют 3.1 Flash Live. По отзывам команд, разговорная динамика стала заметно естественнее. Учитывая, что рынок conversational AI оценивается в $13.9 млрд к 2027 году, ставка Google на качество голосовых агентов выглядит логично.
Что получают обычные пользователи
В Gemini Live модель даёт более быстрые ответы и держит контекст разговора вдвое дольше предыдущей версии. Не теряет нить в длинных brainstorm-сессиях.
А ещё Search Live расширяется на более чем 200 стран. Можно вести мультимодальные разговоры с поиском Google в реальном времени на своём языке.
Для русскоязычных пользователей вопрос пока открытый: 200+ стран звучит хорошо, но конкретный список Google не раскрывает. Если Search Live заработает на русском, это будет серьёзный конкурент голосовым ассистентам.
SynthID: водяные знаки на AI-аудио
Всё аудио, которое генерирует 3.1 Flash Live, маркируется через SynthID. Водяной знак встроен прямо в аудиопоток и не слышен человеку. Зато его можно детектировать автоматически для борьбы с дезинформацией.
Учитывая, что голосовые дипфейки становятся реальной проблемой, это разумный ход. Google подробно описывает подход к безопасности в model card.
Вывод
Gemini 3.1 Flash Live закрывает аудионаправление в линейке. Flash-Lite для дешёвых задач, Pro для сложного reasoning, Flash Live для голосовых диалогов в реальном времени. Для тех, кто строит голосовых агентов, модель выглядит серьёзно: быстрая и с хорошим пониманием тона собеседника. Посмотрим, как она покажет себя на реальных нагрузках.
Что ещё почитать
- Gemini 3.1 Flash-Lite: быстрая и дешёвая модель Google — младшая модель в семействе, заточенная на скорость и цену
- Gemini 3.1 Pro: что нового в модели Google — старший брат для сложных задач и reasoning
- NotebookLM превращает документы в подкасты — ещё один голосовой продукт Google на базе Gemini