Microsoft MAI: три модели для голоса, транскрипции и картинок
Microsoft представила MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. Собственные модели, агрессивные цены и явный курс на независимость от OpenAI.
TL;DR: Microsoft выкатила три собственные модели серии MAI: транскрипция голоса на 25 языках, генерация речи с эмоциями за секунду и генерация картинок из топ-3 Arena.ai. Всё доступно в Foundry, цены агрессивные. Похоже, зависимость от OpenAI Microsoft больше не устраивает.
MAI-Transcribe-1: распознавание речи на 25 языках
Первая модель закрывает задачу speech-to-text. Microsoft заявляет первое место по бенчмарку FLEURS в 11 основных языках. В оставшихся 14 языках MAI-Transcribe-1 обходит Whisper large-v3 от OpenAI, а в 11 из них ещё и Gemini 3.1 Flash от Google.
Но главное не бенчмарки. Скорость пакетной транскрибации в 2.5 раза выше текущего Azure Fast Transcription. Для тех, кто гоняет через API тысячи часов аудио (колл-центры, подкасты, медиа), это ощутимая разница.
Модель оптимизирована для шумных реальных условий, не только для чистых студийных записей.
Цена: $0.36 в час. Для сравнения, Whisper через OpenAI API обходится примерно в $0.36 за 60 минут, так что Microsoft целится ровно в ту же нишу, но с заявленным превосходством по качеству.
MAI-Voice-1: генерация голоса с эмоциями
Вторая модель работает в обратную сторону: текст превращает в речь. Microsoft обещает, что голос звучит естественно, с интонациями и эмоциями. Не тот монотонный TTS, к которому мы привыкли.
- 60 секунд аудио генерируется за 1 секунду. Это быстро, для реалтайм-сценариев подходит
- Можно создать кастомный голос буквально из нескольких секунд записи
- Голос сохраняет идентичность на длинных текстах, не «плывёт» к середине
MAI-Voice-1 уже работает в Copilot Audio Expressions и Copilot Podcasts. Думаю, скоро увидим его в Teams и других продуктах Microsoft.
Цена: $22 за миллион символов. ElevenLabs берёт в среднем $24-30/1M символов на бизнес-планах.
MAI-Image-2: генерация картинок для Bing и PowerPoint

Третья модель генерирует изображения и уже вошла в топ-3 на Arena.ai — это площадка, где пользователи вслепую сравнивают результаты разных генераторов.
Генерация стала в 2 раза быстрее (в Foundry и Copilot), а Microsoft делает акцент на натуральном освещении, точных тонах кожи и читаемом тексте на картинках. Целятся в фотографов, дизайнеров и маркетологов.
Rob Reilly, глобальный креативный директор WPP (одна из крупнейших рекламных групп мира), назвал MAI-Image-2 game-changer для создания рекламных изображений.

Модель уже раскатывается в Bing Image Creator и PowerPoint.
Цена: $5 за миллион токенов (текстовый ввод), $33 за миллион токенов (генерация изображений).
Зачем Microsoft строит свои модели
Вот что тут важно. Полгода назад Microsoft сформировала отдельную группу MAI (Microsoft AI). С тех пор уже несколько релизов собственных моделей.
Раньше стратегия была простой: OpenAI делает модели, Microsoft продаёт через Azure. Сейчас Microsoft параллельно строит свой модельный стек. Не вместо OpenAI (партнёрство никуда не делось), а в дополнение.
Зависеть от одного поставщика рискованно, особенно когда этот поставщик сам хочет стать платформой. Плюс мультимодальные задачи (голос, картинки, транскрипция) — это инфраструктура, которую Microsoft хочет контролировать целиком.
Для разработчиков это хорошая новость. Когда три гиганта конкурируют за одни и те же API-задачи, цены падают.
Где попробовать
Все три модели доступны в Microsoft Foundry и MAI Playground. Foundry — это бывший Azure AI Studio, ребрендинг прошёл пару месяцев назад.
Что ещё почитать
- Gemini 3.1 Flash Live: голосовые агенты Google стали точнее — голосовые модели Google, прямой конкурент MAI-Voice-1
- GPT-5.4: computer use, tool search и 1M контекст — последняя мультимодальная модель OpenAI
- GPT-5.4 Mini и Nano: быстрые модели для кода и субагентов — ценовая конкуренция в сегменте быстрых моделей