GPT-5.3 Codex vs Claude Opus 4.6
OpenAI и Anthropic выпустили флагманские модели в один день. Сравниваю GPT-5.3 Codex и Claude Opus 4.6 по бенчмаркам, фичам и практической пользе
TL;DR: OpenAI и Anthropic выпустили обновления флагманов в один день, буквально минута в минуту. GPT-5.3 Codex побеждает в терминальных задачах и управлении компьютером. Opus 4.6 сильнее в кодинге по SWE-bench, длинном контексте и профессиональных задачах. Короткий ответ: зависит от того, что тебе нужно.
5 февраля 2026 года. 10 утра по тихоокеанскому времени. OpenAI публикуют анонс GPT-5.3 Codex. Anthropic в ту же минуту — Claude Opus 4.6. Совпадение? Конечно нет. Обе компании знали о релизе друг друга и решили устроить лобовое столкновение. Через пару дней они ещё и рекламу на Суперкубке покажут друг против друга. Война AI-моделей в самом разгаре.
Но хватит драмы. Давай разберёмся, какая модель реально лучше.
Бенчмарки лоб в лоб
Проблема сравнения в том, что компании частично используют разные бенчмарки. Но кое-где пересечения есть.
Несколько наблюдений.
Terminal-Bench 2.0 — тут GPT-5.3 Codex разнёс Opus 4.6 на 12 пунктов. Это бенчмарк терминальных навыков, и для агента-кодера это критично. Забавно, что Anthropic утром объявили «лучший результат на Terminal-Bench», а через 35 минут OpenAI побили этот рекорд. Самый короткоживущий рекорд в истории AI-бенчмарков.
SWE-bench Verified — тут Opus 4.6 показывает 80.8%. OpenAI не публиковали результат GPT-5.3 Codex на этом бенчмарке (они используют SWE-Bench Pro, другую версию). На SWE-Bench Pro у GPT-5.3 Codex 56.8%, но сравнивать напрямую нельзя — разные тесты.
GDPval (профессиональные задачи) — Opus 4.6 опережает GPT-5.2 на 144 Elo-пункта. GPT-5.3 Codex показал 70.9% (wins or ties), что примерно на уровне GPT-5.2. То есть тут Opus 4.6 впереди.
Где GPT-5.3 Codex сильнее
В терминальных задачах разрыв огромный. 77.3% на Terminal-Bench — рекорд индустрии. Если твой агент большую часть времени работает через командную строку, это прямо имеет значение.
На OSWorld (управление компьютером через визуальный интерфейс) — 64.7%, почти вдвое больше, чем у GPT-5.2. Anthropic не публиковали свой результат на этом бенчмарке, так что сравнить не с чем.
В кибербезопасности 77.6% на CTF-челленджах. Это первая модель OpenAI с рейтингом «High capability», и первая, которую специально обучали искать уязвимости.
Работает на 25% быстрее предшественника и тратит меньше токенов. Для тех, кто гоняет много задач через агента — ощутимая разница.
Ну и необычный факт: GPT-5.3 Codex помогала разрабатывать саму себя. Дебажила тренинг, масштабировала GPU-кластеры. Звучит фантастически, но OpenAI описывают это подробно.
Где Claude Opus 4.6 сильнее
Контекст в миллион токенов — и не просто на бумаге. На MRCR v2 (поиск иголок в стоге сена) Opus 4.6 набрал 76%, а Sonnet 4.5 всего 18.5%. Четырёхкратная разница. У GPT-5.3 Codex таких данных нет.
На SWE-bench Verified — 80.8%, один из лучших результатов среди всех моделей. Задачи там больше про решение реальных GitHub-issues, а не про терминальную работу. Разный акцент.
За пределами кода Opus 4.6 тоже силён: GDPval, BigLaw Bench (90.2% в юридических задачах), BrowseComp. Модель широкого профиля, не только для разработчиков.
В Claude Code появились Agent Teams — можно запускать команды агентов, которые работают параллельно и координируются. У Codex есть интерактивная работа, но именно мультиагентность — фишка Anthropic.
Ещё модель сама решает, когда ей нужно подумать подольше (adaptive thinking). Четыре уровня усилий. У OpenAI похожая система, но у Anthropic она выглядит более гибкой.
И context compaction — автоматическое сжатие контекста, когда разговор подходит к лимиту. Для длительных агентных сессий штука незаменимая.
Цены
GPT-5.3 Codex пока работает только внутри экосистемы Codex (приложение, CLI, IDE-расширение). API обещают. Opus 4.6 уже доступен через API по цене Opus 4.5.
Для разработчиков, которым нужен API прямо сейчас, выбор очевиден — Opus 4.6. Когда OpenAI откроют API для GPT-5.3, картина может измениться.
Разные философии
Вот что мне кажется самым интересным. Эти две модели отражают разные стратегии.
OpenAI делают ставку на узкую специализацию. GPT-5.3 Codex — это агент для кодинга и компьютерных задач. Терминал, файлы, деплой, масштабирование. Модель заточена под конкретный сценарий и в нём работает очень хорошо.
Anthropic идут в ширину. Opus 4.6 — модель общего назначения, которая хороша в коде, юриспруденции, финансах, исследованиях, работе с Excel и PowerPoint. Контекст в миллион токенов. Гибкое управление мышлением.
Кому что ближе — зависит от задач.
Кому какая модель
Бери GPT-5.3 Codex, если: - Работаешь преимущественно через терминал - Нужен агент для автономного выполнения задач на компьютере - Занимаешься кибербезопасностью - Уже сидишь в экосистеме ChatGPT/Codex
Бери Claude Opus 4.6, если: - Нужен API прямо сейчас - Работаешь с большими кодовыми базами (миллион токенов контекста) - Задачи выходят за рамки чистого кодинга — аналитика, документы, юридика - Хочешь мультиагентные команды в Claude Code - Нужна гибкость в управлении усилием модели
Мой взгляд
Думаю, победителя тут нет, и это хорошо. Два года назад мы выбирали между «плохо» и «чуть получше». Сейчас выбираем между двумя очень сильными моделями с разными акцентами.
Что действительно раздражает — обе компании используют разные бенчмарки, и честное сравнение приходится собирать по крупицам. Хотелось бы видеть обе модели на одних и тех же тестах. Но, видимо, каждой компании выгоднее показывать те цифры, где она впереди.
Подождём, когда сообщество прогонит обе модели на одинаковых задачах.
Что ещё почитать
- GPT-5.3 Codex — модель, которая помогала создавать саму себя — подробный обзор новой модели OpenAI
- Claude Opus 4.6 — Anthropic выпустили свою самую умную модель — подробный обзор модели Anthropic
- GPT-5.2 Codex теперь доступен через API — предыдущая версия Codex
- 19 лучших AI-инструментов для продуктивности в 2026 — обзор экосистемы AI-инструментов