Qwen3-Coder-Next — маленькая модель, которая кодит как большая

Alibaba выпустила Qwen3-Coder-Next — MoE-модель с 3B активных параметров, которая на coding-бенчмарках конкурирует с моделями в 10-20 раз крупнее.

Qwen3-Coder-Next — маленькая модель, которая кодит как большая
TL;DR: Alibaba выпустила Qwen3-Coder-Next — open-weight модель для кодинга с архитектурой MoE (80B параметров, но активны только 3B). Она набирает 70%+ на SWE-Bench Verified и конкурирует с моделями в 10-20 раз крупнее. Доступна бесплатно на Hugging Face.

Когда все гонятся за триллионами параметров, Alibaba пошла в другую сторону. Qwen3-Coder-Next — это попытка доказать, что для хорошего кодинг-агента не обязательно держать в памяти модель размером с небольшой дата-центр. И, судя по бенчмаркам, у них получилось.

Что такое Qwen3-Coder-Next

Qwen3-Coder-Next построена на базе Qwen3-Next-80B-A3B-Base. Если расшифровать название: 80B — это общее количество параметров, A3B — количество активных при инференсе. Модель использует архитектуру Mixture of Experts (MoE) с гибридным вниманием, поэтому при генерации работает только малая часть весов.

На практике это означает одно — модель можно запускать на обычном железе. Ну, относительно обычном. Не нужен кластер GPU за сотни тысяч долларов, как для полноразмерных моделей уровня GPT-5 или Claude Opus.

Веса открыты — можно скачать с Hugging Face или ModelScope. Техрепорт тоже на GitHub.

Как тренировали — ставка на агентный подход

Самое интересное в Qwen3-Coder-Next — не архитектура, а метод обучения. Команда Qwen решила масштабировать не параметры, а агентные сигналы. Вместо того чтобы просто делать модель больше, они собрали огромную коллекцию исполняемых задач с реальными средами.

Обучение шло в несколько этапов:

  1. Дообучение на code- и agent-ориентированных данных
  2. Файн-тюнинг на качественных агентных траекториях — записях того, как модель взаимодействует со средой
  3. Специализация по доменам: софтверная инженерия, QA, веб-разработка
  4. Дистилляция экспертов в единую модель

Главное тут — модель учили не просто генерировать код, а работать с инструментами, рассуждать на длинной дистанции и выкручиваться, когда что-то пошло не так.

Бенчмарки — где 3B активных бьют 60B

Цифры, честно говоря, впечатляют. Qwen3-Coder-Next набирает больше 70% на SWE-Bench Verified через scaffold SWE-Agent. Для модели с 3B активных параметров это очень достойный результат.

Результаты Qwen3-Coder-Next на кодинг-бенчмарках

Модель тестировали на нескольких бенчмарках: SWE-Bench (Verified, Multilingual и Pro), TerminalBench 2.0 и Aider. Результаты стабильные — и на мультиязычных задачах, и на более сложном SWE-Bench Pro.

Отдельно интересен график зависимости качества от количества агентных ходов. Чем больше итераций даёшь модели, тем лучше результат на SWE-Bench Pro. Это подтверждает, что модель действительно умеет рассуждать на длинной дистанции, а не просто угадывать с первой попытки.

Зависимость качества от количества агентных ходов на SWE-Bench Pro

Эффективность — Парето-фронт для кодинг-агентов

Тут лучше посмотреть на график. Qwen3-Coder-Next с 3B активных параметров выдаёт результаты на уровне моделей, у которых активных параметров в 10-20 раз больше.

Соотношение эффективности и качества на SWE-Bench Pro

Если хочешь запускать кодинг-агента локально или на VPS, это интересный вариант. Не нужно платить за API крупных провайдеров — разворачиваешь свою модель и работаешь. Правда, насколько бенчмарки переносятся на реальные задачи — вопрос отдельный.

Где пригодится

Команда Qwen показала демо интеграций с несколькими инструментами:

  • OpenClaw — open-source фреймворк для AI-агентов
  • Cline — расширение для VS Code
  • Claude Code — CLI-агент от Anthropic (да, можно подключить стороннюю модель)
  • Генерация фронтенда
  • Browser Use Agent для автоматизации браузера

Qwen3-Coder-Next заточена именно под агентные сценарии — многоходовые задачи, работа с файловой системой, отладка. Автодополнение тут не главное.

Что не рассказали

Пара моментов, которые стоит иметь в виду. Техрепорт не раскрывает детали обучающих данных — сколько именно задач использовали и из каких репозиториев. Также нет прямого сравнения с GPT-5.3 Codex на одинаковых условиях — бенчмарки запускали через разные scaffolds, что делает честное сравнение сложнее.

Модель пока не тестировали на реальных production-задачах в масштабе. SWE-Bench — это хороший индикатор, но реальная разработка сложнее и разнообразнее.

И ещё — 80B параметров, даже с 3B активными, всё равно требуют заметного объёма RAM для загрузки весов. Это не модель для ноутбука, хотя и не монстр уровня 400B.


Мне нравится направление, в которое двигается Alibaba. Вместо гонки за размером — ставка на умное обучение. 70%+ на SWE-Bench Verified при 3B активных параметрах говорят сами за себя, хотя я бы подождал независимых тестов на реальных проектах.

Если строишь своего кодинг-агента или ищешь альтернативу проприетарным API — стоит попробовать. Веса открыты, скачиваешь и экспериментируешь.

Что ещё почитать