Gemini Embedding 2: мультимодальные эмбеддинги Google

Google представила Gemini Embedding 2 — первую нативно мультимодальную модель эмбеддингов, которая объединяет текст, картинки, видео и аудио в одно векторное пространство.

Gemini Embedding 2: мультимодальные эмбеддинги Google
TL;DR: Google выпустила Gemini Embedding 2 — первую нативно мультимодальную модель эмбеддингов. Текст, картинки, видео, аудио и PDF-документы теперь можно превратить в векторы в едином пространстве. Доступна через Gemini API и Vertex AI.

Эмбеддинги — штука, которая работает «под капотом» почти всех AI-продуктов: от семантического поиска до RAG. До сих пор большинство моделей эмбеддингов умели работать только с текстом, а для картинок или видео приходилось городить отдельные пайплайны. Google решила это исправить.

Что такое Gemini Embedding 2?

Это первая модель эмбеддингов от Google, построенная на архитектуре Gemini, которая нативно понимает сразу несколько модальностей.

Модель отображает данные разных типов в единое векторное пространство размерностью до 3072. Это значит, что ты можешь искать по видео текстовым запросом или сравнивать аудиозапись с PDF-документом — и получить осмысленный результат.

Какие модальности поддерживаются?

На вход модель принимает текст (до 8192 токенов, это примерно 6000 слов), изображения (до 6 штук за запрос, PNG/JPEG), видео до 120 секунд (MP4/MOV), аудио напрямую без промежуточной транскрипции и PDF-документы до 6 страниц.

Но интереснее другое. Можно передать в одном запросе сразу несколько типов данных, например, картинку и подпись к ней. Модель поймёт связь между ними и учтёт контекст обоих объектов. Google называет это interleaved input.

Matryoshka-эмбеддинги и гибкость размерности

Gemini Embedding 2 использует технику Matryoshka Representation Learning (MRL). Суть простая: информация «вкладывается» как матрёшка, и ты можешь уменьшить размерность вектора без полной потери качества.

По умолчанию размерность — 3072. Но можно снизить до 1536 или 768, если нужно сэкономить на хранении или ускорить поиск. Google рекомендует эти три значения как оптимальные по балансу качества и производительности.

Для сравнения: у OpenAI text-embedding-3-large тоже 3072, но мультимодальности там нет.

Кто уже использует?

Google делится отзывами ранних пользователей, и цифры там любопытные.

Юридический сервис Everlaw встроил модель в e-discovery — поиск по миллионам документов в судебных делах. CTO Max Christoff говорит, что мультимодальность позволила искать не только по текстам, но и по фото и видео в материалах. Раньше для этого нужны были отдельные пайплайны.

У Sparkonomy (платформа для креаторов) задержка снизилась на 70% — они убрали промежуточный LLM-инференс. А оценка семантической близости для пар текст-изображение выросла с 0.4 до 0.8. Честно, 0.4 → 0.8 звучит почти нереально, но это их цифры.

Mindlid (приложение для ментального здоровья) получили +20% в top-1 recall, когда начали совмещать текстовые диалоги с аудиозаписями в одних эмбеддингах. Ещё отмечают, что API обратно совместим — переход занял минимум времени.

Как попробовать?

Gemini Embedding 2 доступна в публичной превью через:

Есть готовые Colab-ноутбуки для обоих вариантов. Из интеграций — LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Google Vector Search. Вообще, с таким набором коннекторов проблем с подключением быть не должно.

Вывод

До сих пор для мультимодального поиска приходилось собирать зоопарк: CLIP для картинок, какой-нибудь text-embedding для текста, а для аудио — вообще отдельная история. Gemini Embedding 2 заменяет всё это одной моделью.

Думаю, больше всего это пригодится в RAG. Если у тебя база знаний с PDF, скриншотами и текстовыми документами, один эмбеддинг-пайплайн вместо трёх — это реально проще и в разработке, и в поддержке.

Модель пока в превью. Я бы не стал тащить её в продакшн без тестов на своих данных, но попробовать точно стоит.

Что ещё почитать