MiniMax M2.7: модель, которая сама себя обучала

Китайская MiniMax выпустила M2.7 — первую модель, которая активно участвовала в собственной эволюции. Бенчмарки на уровне топовых закрытых моделей.

MiniMax M2.7: модель, которая сама себя обучала
TL;DR: MiniMax выпустила M2.7 — открытую модель, которая участвовала в собственном обучении через механизм self-evolution. По бенчмаркам догоняет Opus 4.6 и GPT-5.3: SWE-Pro 56.22%, VIBE-Pro 55.6%, а в OpenClaw-задачах показывает 62.7%.

Китайская MiniMax выпустила M2.7, и этот релиз интересен не очередным обновлением бенчмарков. Модель участвовала в собственной эволюции. Не в переносном смысле: M2.7 обновляла свою память, строила навыки для RL-экспериментов и улучшала свой harness на основе результатов. Цикл замкнулся.

Как работает self-evolution в MiniMax M2.7

MiniMax дала M2.7 задачу: построить research agent harness, который взаимодействует с разными исследовательскими группами внутри компании. Этот harness поддерживает data-пайплайны, тренировочные окружения, инфраструктуру и persistent memory.

Архитектура research agent harness в MiniMax M2.7

Исследователь из RL-команды обсуждает идею эксперимента с агентом. Агент помогает с обзором литературы, трекает спецификацию эксперимента, прокладывает data-пайплайны, запускает эксперименты. Во время работы сам мониторит прогресс, читает логи, дебажит, анализирует метрики, отправляет мерж-реквесты и прогоняет smoke-тесты. Раньше для этого нужна была координация нескольких исследователей из разных команд. Сейчас человек подключается только для ключевых решений.

По оценке MiniMax, M2.7 закрывает 30-50% рабочего процесса исследователя.

Ещё интереснее то, что модель рекурсивно улучшает свой harness. Собирает обратную связь, строит evaluation-сеты для внутренних задач, итерирует архитектуру, навыки и механизмы памяти.

Конкретный пример: M2.7 оптимизировала программерские способности модели на внутреннем scaffold. Полностью автономно, больше 100 раундов. Цикл: анализ фейлов → план изменений → правка кода scaffold → прогон eval → сравнение результатов → решение оставить или откатить. За это время модель нашла оптимальные комбинации sampling-параметров (temperature, frequency penalty, presence penalty), спроектировала более точные workflow-гайдлайны и добавила детекцию зацикливаний. Итог: +30% на внутренних eval-сетах.

🔄
100 раундов автономной оптимизации без участия человека. M2.7 сама нашла оптимальные sampling-параметры, добавила детекцию зацикливаний и улучшила scaffold на 30%.

MLE Bench: модель тренирует ML-модели

Чтобы проверить границы self-evolution, MiniMax запустила M2.7 на 22 ML-соревнованиях из MLE Bench Lite от OpenAI. Каждое соревнование работает на одной A30 GPU, но покрывает полный цикл ML-разработки.

Harness простой: три модуля (short-term memory, self-feedback, self-optimization). После каждого раунда агент генерирует markdown с памятью и делает self-criticism, который направляет следующую итерацию. Три запуска по 24 часа каждый.

Результаты MiniMax M2.7 на MLE Bench Lite

Результат лучшего запуска: 9 золотых, 5 серебряных, 1 бронзовая медаль. Средний medal rate по трём запускам — 66.6%, наравне с Gemini 3.1. Выше только Opus 4.6 (75.7%) и GPT-5.4 (71.2%). Для открытой модели, которую можно запустить локально, это очень близко к топу.

Бенчмарки MiniMax M2.7

Бенчмарки MiniMax M2.7 в сравнении с топовыми моделями

По программированию M2.7 вышла на уровень лучших закрытых моделей:

Бенчмарк M2.7 Контекст
SWE-Pro 56.22% На уровне GPT-5.3-Codex
VIBE-Pro 55.6% Почти как Opus 4.6
Terminal Bench 2 57.0% Понимание сложных инженерных систем
SWE Multilingual 76.5 Многоязычное программирование
Multi SWE Bench 52.7 Мультирепозиторные задачи
NL2Repo 39.8% Генерация из описания на естественном языке

В офисных задачах тоже хорошие цифры: ELO 1495 на GDPval-AA среди 45 моделей, уступает только Opus 4.6, Sonnet 4.6 и GPT-5.4. Модель умеет работать с Word, Excel и PPT: генерировать файлы по шаблонам, делать multi-round editing и выдавать готовые к правкам документы.

На Toolathon (точность работы с инструментами) M2.7 набрала 46.3%. На MM Claw (задачи из OpenClaw) — 62.7%, близко к Sonnet 4.6. При этом модель держит 97% compliance при работе с 40+ сложными навыками, каждый из которых больше 2000 токенов.

Agent Teams и дебаг в продакшне

Отдельная фича M2.7 — нативная поддержка Agent Teams, мультиагентной коллаборации. Это не промптинг с ролями. По словам MiniMax, модель интернализировала удержание роли, adversarial reasoning (оспаривание решений коллег-агентов), следование протоколам и поведенческую дифференциацию. Можно собрать команду агентов для разработки прототипа, где каждый отвечает за свою часть и может оспорить решения других.

MiniMax описывает кейс с дебагом в live-окружении: при алерте M2.7 коррелирует метрики мониторинга с таймлайнами деплоев, делает статистический анализ трейсов, подключается к базам для проверки гипотез, находит пропущенные миграции индексов и использует non-blocking index creation для «остановки кровотечения» до мерж-реквеста. По данным MiniMax, время восстановления инцидентов в нескольких случаях сократилось до трёх минут.

Если это работает так, как описано, для on-call инженеров это меняет многое. Связать мониторинг, код и базу данных в один пайплайн расследования вместо ручного переключения между десятком вкладок — это часы сэкономленного времени на каждом инциденте.

Разбираю агентные модели и инструменты для разработчиков каждую неделю — подписывайся в телеге.

OpenRoom: AI за пределами текста

В M2.7 также подтянули character consistency и эмоциональный интеллект. На базе этого MiniMax построила OpenRoom — демо, где AI-взаимодействие происходит через Web GUI с визуальной обратной связью и сценами, а не через текстовый чат. Персонажи реагируют на окружение и инициируют действия сами.

Исходный код OpenRoom открыт (большая часть написана самой AI). Думаю, для тех, кто экспериментирует с game-подобными AI-интерфейсами, может быть полезной отправной точкой.

Где попробовать MiniMax M2.7

M2.7 доступна через MiniMax Agent, API Platform и Coding Plan для разработчиков. Модель также доступна через Ollama для локального запуска.

MiniMax Agent
Попробовать M2.7 в агентном интерфейсе MiniMax

Открытая модель с цифрами на уровне Opus 4.6 и GPT-5.3, которую можно гонять локально через Ollama. Если работаешь с агентными пайплайнами или просто ищешь альтернативу закрытым API для кодинга, имеет смысл попробовать.

Что ещё почитать