GPT-5.3 Codex vs Claude Opus 4.6

OpenAI и Anthropic выпустили флагманские модели в один день. Сравниваю GPT-5.3 Codex и Claude Opus 4.6 по бенчмаркам, фичам и практической пользе

GPT-5.3 Codex vs Claude Opus 4.6
TL;DR: OpenAI и Anthropic выпустили обновления флагманов в один день, буквально минута в минуту. GPT-5.3 Codex побеждает в терминальных задачах и управлении компьютером. Opus 4.6 сильнее в кодинге по SWE-bench, длинном контексте и профессиональных задачах. Короткий ответ: зависит от того, что тебе нужно.

5 февраля 2026 года. 10 утра по тихоокеанскому времени. OpenAI публикуют анонс GPT-5.3 Codex. Anthropic в ту же минуту — Claude Opus 4.6. Совпадение? Конечно нет. Обе компании знали о релизе друг друга и решили устроить лобовое столкновение. Через пару дней они ещё и рекламу на Суперкубке покажут друг против друга. Война AI-моделей в самом разгаре.

Но хватит драмы. Давай разберёмся, какая модель реально лучше.

Бенчмарки лоб в лоб

Проблема сравнения в том, что компании частично используют разные бенчмарки. Но кое-где пересечения есть.

Несколько наблюдений.

Terminal-Bench 2.0 — тут GPT-5.3 Codex разнёс Opus 4.6 на 12 пунктов. Это бенчмарк терминальных навыков, и для агента-кодера это критично. Забавно, что Anthropic утром объявили «лучший результат на Terminal-Bench», а через 35 минут OpenAI побили этот рекорд. Самый короткоживущий рекорд в истории AI-бенчмарков.

SWE-bench Verified — тут Opus 4.6 показывает 80.8%. OpenAI не публиковали результат GPT-5.3 Codex на этом бенчмарке (они используют SWE-Bench Pro, другую версию). На SWE-Bench Pro у GPT-5.3 Codex 56.8%, но сравнивать напрямую нельзя — разные тесты.

GDPval (профессиональные задачи) — Opus 4.6 опережает GPT-5.2 на 144 Elo-пункта. GPT-5.3 Codex показал 70.9% (wins or ties), что примерно на уровне GPT-5.2. То есть тут Opus 4.6 впереди.

Где GPT-5.3 Codex сильнее

В терминальных задачах разрыв огромный. 77.3% на Terminal-Bench — рекорд индустрии. Если твой агент большую часть времени работает через командную строку, это прямо имеет значение.

На OSWorld (управление компьютером через визуальный интерфейс) — 64.7%, почти вдвое больше, чем у GPT-5.2. Anthropic не публиковали свой результат на этом бенчмарке, так что сравнить не с чем.

В кибербезопасности 77.6% на CTF-челленджах. Это первая модель OpenAI с рейтингом «High capability», и первая, которую специально обучали искать уязвимости.

Работает на 25% быстрее предшественника и тратит меньше токенов. Для тех, кто гоняет много задач через агента — ощутимая разница.

Ну и необычный факт: GPT-5.3 Codex помогала разрабатывать саму себя. Дебажила тренинг, масштабировала GPU-кластеры. Звучит фантастически, но OpenAI описывают это подробно.

Где Claude Opus 4.6 сильнее

Контекст в миллион токенов — и не просто на бумаге. На MRCR v2 (поиск иголок в стоге сена) Opus 4.6 набрал 76%, а Sonnet 4.5 всего 18.5%. Четырёхкратная разница. У GPT-5.3 Codex таких данных нет.

На SWE-bench Verified — 80.8%, один из лучших результатов среди всех моделей. Задачи там больше про решение реальных GitHub-issues, а не про терминальную работу. Разный акцент.

За пределами кода Opus 4.6 тоже силён: GDPval, BigLaw Bench (90.2% в юридических задачах), BrowseComp. Модель широкого профиля, не только для разработчиков.

В Claude Code появились Agent Teams — можно запускать команды агентов, которые работают параллельно и координируются. У Codex есть интерактивная работа, но именно мультиагентность — фишка Anthropic.

Ещё модель сама решает, когда ей нужно подумать подольше (adaptive thinking). Четыре уровня усилий. У OpenAI похожая система, но у Anthropic она выглядит более гибкой.

И context compaction — автоматическое сжатие контекста, когда разговор подходит к лимиту. Для длительных агентных сессий штука незаменимая.

Цены

GPT-5.3 Codex пока работает только внутри экосистемы Codex (приложение, CLI, IDE-расширение). API обещают. Opus 4.6 уже доступен через API по цене Opus 4.5.

Для разработчиков, которым нужен API прямо сейчас, выбор очевиден — Opus 4.6. Когда OpenAI откроют API для GPT-5.3, картина может измениться.

Разные философии

Вот что мне кажется самым интересным. Эти две модели отражают разные стратегии.

OpenAI делают ставку на узкую специализацию. GPT-5.3 Codex — это агент для кодинга и компьютерных задач. Терминал, файлы, деплой, масштабирование. Модель заточена под конкретный сценарий и в нём работает очень хорошо.

Anthropic идут в ширину. Opus 4.6 — модель общего назначения, которая хороша в коде, юриспруденции, финансах, исследованиях, работе с Excel и PowerPoint. Контекст в миллион токенов. Гибкое управление мышлением.

Кому что ближе — зависит от задач.

Кому какая модель

Бери GPT-5.3 Codex, если: - Работаешь преимущественно через терминал - Нужен агент для автономного выполнения задач на компьютере - Занимаешься кибербезопасностью - Уже сидишь в экосистеме ChatGPT/Codex

Бери Claude Opus 4.6, если: - Нужен API прямо сейчас - Работаешь с большими кодовыми базами (миллион токенов контекста) - Задачи выходят за рамки чистого кодинга — аналитика, документы, юридика - Хочешь мультиагентные команды в Claude Code - Нужна гибкость в управлении усилием модели

Мой взгляд

Думаю, победителя тут нет, и это хорошо. Два года назад мы выбирали между «плохо» и «чуть получше». Сейчас выбираем между двумя очень сильными моделями с разными акцентами.

Что действительно раздражает — обе компании используют разные бенчмарки, и честное сравнение приходится собирать по крупицам. Хотелось бы видеть обе модели на одних и тех же тестах. Но, видимо, каждой компании выгоднее показывать те цифры, где она впереди.

Подождём, когда сообщество прогонит обе модели на одинаковых задачах.

Что ещё почитать