GPT-5.3 Codex — модель, которая помогала создавать саму себя
OpenAI выпустили GPT-5.3 Codex — агентную модель для кода, которая участвовала в собственной разработке. Разбираем бенчмарки, фичи и зачем всё это нужно
TL;DR: OpenAI выкатили GPT-5.3 Codex — обновлённую агентную модель для программирования. Она на 25% быстрее предшественницы, ставит рекорды на SWE-Bench Pro и Terminal-Bench, а ещё участвовала в собственном обучении и деплое. Доступна в платных тарифах ChatGPT.
Главное за минуту
GPT-5.3 Codex — это апгрейд GPT-5.2 Codex. В одной модели теперь совмещены сильный кодинг от Codex-линейки и рассуждения с профессиональными знаниями от GPT-5.2. Плюс модель работает на 25% быстрее.
Но самое интересное — OpenAI заявляют, что это первая модель, которая активно участвовала в собственном создании. Ранние версии GPT-5.3 Codex дебажили свой тренинг, управляли деплоем и анализировали результаты тестирования. Звучит как научная фантастика, но по описанию похоже на правду — команда OpenAI говорит, что их работа кардинально изменилась за последние два месяца.
Бенчмарки
Вот цифры, и тут есть на что посмотреть:
По SWE-Bench Pro прирост мизерный: с 56.4% до 56.8%. Думаю, тут уже потолок для текущей архитектуры. Зато Terminal-Bench прыгнул с 64% до 77.3%, а OSWorld вообще почти удвоился (с 38.2% до 64.7%). Управление компьютером — это где модель реально прибавила.
Ещё модель тратит меньше токенов, чем предшественники. Для разработчиков это прямая экономия.



Что умеет на практике
Кодинг — это понятно. Но OpenAI делают акцент на том, что GPT-5.3 Codex выходит за рамки написания кода. Вот что они показали:
Модель самостоятельно итерировала над двумя играми: гоночной и про дайвинг. Получала простые команды вроде «исправь баг» или «улучши игру» и автономно работала миллионы токенов, пока не получились играбельные продукты.
Лендинги стали лучше из коробки. Если попросить сделать страницу с тарифами, модель сама покажет годовую подписку в виде месячной цены со скидкой, добавит карусель отзывов вместо одного цитатника. Мелочи, но в продуктовой работе они важны.
Работа с компьютером (OSWorld) — тут прогресс заметный. Модель может выполнять задачи в визуальной среде рабочего стола. Я не уверен, насколько это применимо прямо сейчас, но направление интересное.
Интерактивная работа
Раньше ты давал Codex задачу и ждал результат. Сейчас можно общаться с моделью прямо во время работы — задавать вопросы, корректировать направление, обсуждать подходы. Модель рассказывает, что делает, и отвечает на фидбек. Включается в настройках: Settings > General > Follow-up behavior.
Мне кажется, это правильный шаг. Агент, который молча работает часами и выдаёт результат, это удобно, но немного страшно. Когда видишь промежуточные решения и можешь вмешаться — совсем другое дело.
Кибербезопасность
Тут отдельная история. GPT-5.3 Codex — первая модель, которую OpenAI классифицировали как «High capability» для задач кибербезопасности. И первая, которую специально обучали находить уязвимости в коде.
OpenAI расширяют бета-тест Aardvark — своего агента для поиска уязвимостей. Уже сканируют опенсорс-проекты вроде Next.js. И вкладывают $10M в кредиты API для исследователей безопасности. Неплохо.
77.6% на CTF-челленджах — это сильный результат. Для сравнения, у GPT-5.2 Codex было 67.4%.
Как модель помогала создавать себя
Это, пожалуй, самая необычная часть анонса. Команда OpenAI использовала ранние версии GPT-5.3 Codex для:
- Мониторинга и дебага собственного тренинга
- Оптимизации инфраструктуры деплоя
- Поиска багов рендеринга контекста и проблем с кэшированием
- Динамического масштабирования GPU-кластеров при скачках трафика
- Анализа данных альфа-тестирования и создания дашбордов
Один из исследователей попросил модель оценить, сколько дополнительной работы GPT-5.3 делает за один ход. Модель сама придумала regex-классификаторы, прогнала их по логам сессий и выдала аналитический отчёт. Вот это уже звучит как реальная польза, а не маркетинг.
Доступность
GPT-5.3 Codex доступен в платных тарифах ChatGPT — в приложении Codex, через CLI, IDE-расширение и веб-версию. API пока нет, но обещают «скоро».
Модель обучена и работает на NVIDIA GB200 NVL72.
В итоге
По кодингу тут эволюция, не революция (SWE-Bench вырос на полпроцента). Зато агентные возможности подросли заметно: OSWorld почти удвоился, Terminal-Bench +13 пунктов. Модель стала быстрее, экономнее по токенам, и теперь можно с ней разговаривать прямо во время работы.
Меня лично больше всего впечатлила история про самообучение. Модель дебажит собственный тренинг, масштабирует кластеры для своего же деплоя. Не знаю, как далеко это зайдёт, но направление понятное.
Если ты уже используешь Codex на платном тарифе — обновление придёт автоматически. Если ещё нет и раздумываешь — дождись API, тогда можно будет реально оценить модель в своих задачах.
Что ещё почитать
- GPT-5.2 Codex теперь доступен через API — предыдущая версия модели и что она умеет
- Codex от OpenAI теперь работает прямо в JetBrains IDE — как подключить Codex к среде разработки
- Claude Opus 4.6 — Anthropic выпустили свою самую умную модель — конкурент от Anthropic для сравнения