Microsoft MAI: три модели для голоса, транскрипции и картинок

Microsoft представила MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. Собственные модели, агрессивные цены и явный курс на независимость от OpenAI.

Microsoft MAI: три модели для голоса, транскрипции и картинок
TL;DR: Microsoft выкатила три собственные модели серии MAI: транскрипция голоса на 25 языках, генерация речи с эмоциями за секунду и генерация картинок из топ-3 Arena.ai. Всё доступно в Foundry, цены агрессивные. Похоже, зависимость от OpenAI Microsoft больше не устраивает.

MAI-Transcribe-1: распознавание речи на 25 языках

Первая модель закрывает задачу speech-to-text. Microsoft заявляет первое место по бенчмарку FLEURS в 11 основных языках. В оставшихся 14 языках MAI-Transcribe-1 обходит Whisper large-v3 от OpenAI, а в 11 из них ещё и Gemini 3.1 Flash от Google.

Но главное не бенчмарки. Скорость пакетной транскрибации в 2.5 раза выше текущего Azure Fast Transcription. Для тех, кто гоняет через API тысячи часов аудио (колл-центры, подкасты, медиа), это ощутимая разница.

Модель оптимизирована для шумных реальных условий, не только для чистых студийных записей.

Цена: $0.36 в час. Для сравнения, Whisper через OpenAI API обходится примерно в $0.36 за 60 минут, так что Microsoft целится ровно в ту же нишу, но с заявленным превосходством по качеству.

MAI-Voice-1: генерация голоса с эмоциями

Вторая модель работает в обратную сторону: текст превращает в речь. Microsoft обещает, что голос звучит естественно, с интонациями и эмоциями. Не тот монотонный TTS, к которому мы привыкли.

  • 60 секунд аудио генерируется за 1 секунду. Это быстро, для реалтайм-сценариев подходит
  • Можно создать кастомный голос буквально из нескольких секунд записи
  • Голос сохраняет идентичность на длинных текстах, не «плывёт» к середине

MAI-Voice-1 уже работает в Copilot Audio Expressions и Copilot Podcasts. Думаю, скоро увидим его в Teams и других продуктах Microsoft.

Цена: $22 за миллион символов. ElevenLabs берёт в среднем $24-30/1M символов на бизнес-планах.

Разбираю свежие AI-релизы и модели по мере выхода — подписывайся в телеге.

MAI-Image-2: генерация картинок для Bing и PowerPoint

Пример изображения, созданного MAI-Image-2 для WPP

Третья модель генерирует изображения и уже вошла в топ-3 на Arena.ai — это площадка, где пользователи вслепую сравнивают результаты разных генераторов.

Генерация стала в 2 раза быстрее (в Foundry и Copilot), а Microsoft делает акцент на натуральном освещении, точных тонах кожи и читаемом тексте на картинках. Целятся в фотографов, дизайнеров и маркетологов.

Rob Reilly, глобальный креативный директор WPP (одна из крупнейших рекламных групп мира), назвал MAI-Image-2 game-changer для создания рекламных изображений.

Рекламный креатив WPP, сгенерированный через MAI-Image-2

Модель уже раскатывается в Bing Image Creator и PowerPoint.

Цена: $5 за миллион токенов (текстовый ввод), $33 за миллион токенов (генерация изображений).

Зачем Microsoft строит свои модели

Вот что тут важно. Полгода назад Microsoft сформировала отдельную группу MAI (Microsoft AI). С тех пор уже несколько релизов собственных моделей.

Раньше стратегия была простой: OpenAI делает модели, Microsoft продаёт через Azure. Сейчас Microsoft параллельно строит свой модельный стек. Не вместо OpenAI (партнёрство никуда не делось), а в дополнение.

Зависеть от одного поставщика рискованно, особенно когда этот поставщик сам хочет стать платформой. Плюс мультимодальные задачи (голос, картинки, транскрипция) — это инфраструктура, которую Microsoft хочет контролировать целиком.

Для разработчиков это хорошая новость. Когда три гиганта конкурируют за одни и те же API-задачи, цены падают.

Где попробовать

Все три модели доступны в Microsoft Foundry и MAI Playground. Foundry — это бывший Azure AI Studio, ребрендинг прошёл пару месяцев назад.

Microsoft Foundry
Платформа для работы с AI-моделями Microsoft. MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 доступны через API

Что ещё почитать