OpenAI

GPT-5.5 и GPT-5.5 Pro: обзор новых моделей OpenAI

OpenAI выпустила GPT-5.5 и GPT-5.5 Pro. Обгоняет Claude Opus 4.7 на Terminal-Bench (82,7% vs 69,4%), 400K контекст в Codex. Что реально изменилось.

Pavel Matveev

23 апр. 2026 — 7 min read

TL;DR: OpenAI выпустила GPT-5.5 и GPT-5.5 Pro. Новая модель берёт 82,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7, 73,1% на Expert-SWE и 84,9% на GDPval. В Codex появился контекст 400K, в API будет 1M. Цены в API — $5 за 1M input и $30 за output (обычная версия), $30/$180 за Pro. В ChatGPT раскатывают Plus, Pro, Business и Enterprise.

23 апреля 2026 OpenAI показала GPT-5.5. Релиз совпал с той же неделей, на которой они выкатили ChatGPT Images 2.0 и ужесточили safety в Codex. По бенчмаркам GPT-5.5 обходит Claude Opus 4.7 и Gemini 3.1 Pro на большинстве тестов, связанных с кодингом и агентными задачами. Но интересно не это. Главный сдвиг в том, что модель стала лучше держать длинный контекст работы, меньше тратит токенов и увереннее проходит многошаговые сценарии без «отвалиться на середине».

Разберём, что там по цифрам, где реально прирост, и стоит ли переходить.

Что изменилось по сравнению с GPT-5.4

Главный тезис OpenAI: GPT-5.5 «понимает намерение» лучше, берёт на себя больше работы, меньше нуждается в ручном управлении каждым шагом. По цифрам это превращается в такие улучшения против GPT-5.4:

Метрика	GPT-5.5	GPT-5.4	Прирост
Terminal-Bench 2.0	82,7%	75,1%	+7,6 п.п.
Expert-SWE (internal)	73,1%	68,5%	+4,6 п.п.
OSWorld-Verified (computer use)	78,7%	75,0%	+3,7 п.п.
ARC-AGI-2	85,0%	73,3%	+11,7 п.п.
MRCR v2, 512K-1M	74,0%	36,6%	+37,4 п.п.
CTF Internal (кибер)	88,1%	83,7%	+4,4 п.п.

Цифры OpenAI, опубликованы в анонсе. Самый яркий прирост — на длинном контексте ближе к миллиону токенов. Там GPT-5.4 откровенно сыпался, а GPT-5.5 держит 74% точности. Думаю, именно это сильнее всего почувствуют те, кто работает с большими кодовыми базами и длинными документами.

📈

На MRCR v2 в диапазоне 512K–1M токенов GPT-5.5 берёт 74% против 36,6% у GPT-5.4. Удвоение точности на длинном контексте — главный практический сдвиг для работы с большими кодовыми базами.

Ещё один важный нюанс, который OpenAI подчёркивает отдельно. GPT-5.5 по скорости на токен сопоставим с GPT-5.4, хотя модель умнее и больше. Обычно более мощная модель проседает по латентности. Здесь нет. Плюс она тратит меньше токенов на те же задачи в Codex, что частично компенсирует рост цены.

Бенчмарки против Claude Opus 4.7 и Gemini 3.1 Pro

Здесь два сюжета одновременно. Где OpenAI вырвалась вперёд, а где Anthropic или Google всё ещё держат корону.

GPT-5.5 ведёт:

Terminal-Bench 2.0 — 82,7% против 69,4% у Claude Opus 4.7 и 68,5% у Gemini 3.1 Pro
GDPval (профессиональная работа) — 84,9% против 80,3% и 67,3%
CyberGym — 81,8% против 73,1% у Claude
FrontierMath Tier 4 — 35,4% против 22,9% у Claude и 16,7% у Gemini
OfficeQA Pro — 54,1% против 43,6% у Claude, 18,1% у Gemini
Toolathlon — 55,6% против 48,8% у Gemini

Claude Opus 4.7 или Gemini 3.1 Pro ведут:

SWE-Bench Pro (Public) — 64,3% у Opus 4.7 против 58,6% у GPT-5.5
Humanity's Last Exam (без tools) — 46,9% у Opus 4.7 против 41,4% у GPT-5.5
BrowseComp — 90,1% у GPT-5.5 Pro, но в обычной версии Claude 79,3% против 84,4% у GPT-5.5
ARC-AGI-1 — 98,0% у Gemini 3.1 Pro против 95,0% у GPT-5.5
MCP Atlas — 79,1% у Claude и 78,2% у Gemini против 75,3% у GPT-5.5

Картина неоднородная. По публичному SWE-Bench Pro Claude Opus 4.7 всё ещё чемпион, и это важный тест реальных багфиксов на GitHub. По общим рассуждениям в Humanity's Last Exam Anthropic тоже впереди. Но везде, где задача подразумевает длинный цикл с инструментами, компьютером, терминалом — GPT-5.5 идёт вперёд.

По-моему, это не «одна модель всех побила», а «OpenAI отвоевала позиции в агентном кодинге и офисных задачах». SWE-Bench Pro и академические эссе всё ещё за Anthropic. Подробнее про конкурента — в обзоре Claude Opus 4.7.

Codex и агентный кодинг

Самое громкое место в анонсе. OpenAI настаивает, что GPT-5.5 — их «самая сильная агентная кодинг-модель на сегодня». Звучит как маркетинг, но тестеры подтверждают.

Дэн Шиппер, CEO Every, говорит, что GPT-5.5 — «первая кодинг-модель с серьёзной концептуальной ясностью». Он запустил приложение, несколько дней дебажил проблему, потом позвал сильного инженера на переписывание. Чтобы проверить GPT-5.5, Шиппер отмотал всё назад и дал модели сломанный проект. GPT-5.4 не справился. GPT-5.5 выдал такое же решение, как инженер.

Пьетро Скирано, CEO MagicPath, смержил ветку с сотнями изменений во фронтенде и рефакторингом в основную ветку, которая тоже далеко ушла. За двадцать минут, с одного раза.

Один инженер из NVIDIA в отзыве OpenAI сказал, что «потеря доступа к GPT-5.5 ощущается как потеря конечности». Слегка драматично, но штука в том, что это говорят не случайные блогеры, а люди, которые до этого год работали с GPT-5.4.

Майкл Труэлл, CEO Cursor:

GPT-5.5 заметно умнее и настойчивее GPT-5.4, с более сильным кодингом и надёжным использованием инструментов. Она дольше держится за задачу, не останавливаясь на середине, что особенно важно для сложной длительной работы, которую наши пользователи делегируют в Cursor.

Плюс OpenAI раскатывает в Codex контекст на 400K токенов и Fast mode, который в 1,5 раза быстрее генерирует токены за 2,5-кратную цену. Кому нужно быстрее — пожалуйста, дорого.

Работа с компьютером, офисом и documents

Здесь логика такая же, как в кодинге, только вместо IDE — экран ноутбука. GPT-5.5 лучше понимает, что на экране, куда кликать, как двигаться между приложениями. На OSWorld-Verified набрала 78,7% — тот же уровень, что Claude Opus 4.7 (78,0%), но с существенно меньшими токеновыми затратами, если верить OpenAI.

Внутри самой OpenAI больше 85% сотрудников еженедельно пользуются Codex. Не только инженеры — финансисты, маркетинг, data science, PR. Пара показательных примеров из анонса:

Команда Comms проанализировала шесть месяцев запросов на выступления, построила скоринг и риск-фреймворк, подключила Slack-агента. Низкорисковые запросы он обрабатывает сам, сложные маршрутизирует людям
Финансисты прогнали 24 771 налоговую форму K-1 на 71 637 страниц за сроки на две недели короче прошлого года
Сотрудник Go-to-Market автоматизировал еженедельные бизнес-отчёты и экономит 5–10 часов в неделю

Я про подобное писал в обзоре Claude Managed Agents — там тоже про автоматизацию рутинных бизнес-задач, только через API Anthropic. Тренд очевидный: LLM перестают быть «чат-ботом для ответов» и становятся исполнителями, которые реально делают работу.

Наука: биология, математика, биоинформатика

GPT-5.5 Pro — это пятая передача для задач, где GPT-5.5 уже тормозит. Особенно на научных задачах.

На GeneBench (многошаговый анализ генетических данных) GPT-5.5 Pro показала 33,2% против 25,6% у GPT-5.4 Pro. На BixBench (биоинформатика) обычная GPT-5.5 взяла 80,5% против 74,0%. На FrontierMath Tier 4 — 39,6% у Pro-версии.

Деря Унутмаз, иммунолог из Jackson Laboratory, прогнал через GPT-5.5 Pro датасет экспрессии генов на 62 образца и 28 000 генов. Модель собрала детальный отчёт, который, по его словам, команда делала бы месяцами.

Бартош Наскрецки, математик из Польши, за 11 минут сгенерил через Codex приложение для алгебраической геометрии — визуализация пересечения квадратичных поверхностей с конверсией в уравнение Вейерштрасса. Один промпт.

Визуализация алгебраической геометрии, построенная GPT-5.5 в Codex по одному промпту

Отдельный интересный кейс от OpenAI: внутренняя версия GPT-5.5 с кастомной обёрткой нашла новое доказательство асимптотического факта про внедиагональные числа Рамсея. Результат проверен в Lean. То есть модель выдала не код и не пересказ, а реальный математический аргумент в центральной области комбинаторики — для топовой модели такое впервые.

Думаю, для исследователей с конкретными узкими задачами Pro-версия станет рабочим инструментом, а не демо. Вопрос только в цене.

Кибербезопасность: High в Preparedness

OpenAI честно говорит, что кибер-способности GPT-5.5 они считают High по их Preparedness Framework. Не Critical, но step up по сравнению с GPT-5.4.

Что это означает на практике:

Жёстче фильтры на рискованные кибер-запросы, на подозрительные паттерны и на повторное злоупотребление
Для верифицированных защитников запущен Trusted Access — можно подать заявку на chatgpt.com/cyber и получить меньше отказов для легитимной защитной работы
OpenAI работает с правительствами по защите критической инфраструктуры

На CyberGym GPT-5.5 взяла 81,8% против 73,1% у Claude Opus 4.7. На внутреннем CTF — 88,1%. Это уровень, когда модель реально полезна для red team и blue team, и именно поэтому OpenAI отдельно затянула safety.

Тема сложная: чем мощнее модель в кибере, тем больше шансов, что ей воспользуются злоумышленники, и тем важнее давать её защитникам. OpenAI выбирает путь «trusted access с верификацией». Anthropic в Claude Opus 4.7 пошла чуть другим путём (больше авто-модерации без выдачи cyber-permissive вариантов). Какой подход окажется жизнеспособным — покажет ближайший год.

Цены и где доступ

В ChatGPT GPT-5.5 Thinking раскатывают прямо сейчас на Plus, Pro, Business и Enterprise. GPT-5.5 Pro — только Pro, Business, Enterprise.

В Codex доступ шире: Plus, Pro, Business, Enterprise, Edu, Go. Контекст 400K, есть Fast mode — 1,5× скорость за 2,5× цены.

В API GPT-5.5 ещё не появилась, «скоро будет». По ценам OpenAI ориентирует так: обычная GPT-5.5 пойдёт по $5 за 1M input-токенов и $30 за output, контекст 1M. Pro-версия — $30 за input и $180 за output. Batch и Flex идут за половину обычной цены, Priority — в 2,5× дороже, если нужна приоритетная обработка.

Для сравнения, Claude Opus 4.7 в API стоит дороже на input ($15 против $5), но output сопоставимый. GLM-5.1, про которую я писал раньше, идёт в разы дешевле при 94,6% перформанса Opus 4.7 в кодинге. Так что для тех, кто чувствителен к цене, картина неоднозначная. Но если нужна максимальная точность на агентных задачах, GPT-5.5 сейчас выглядит как самый сильный выбор.

Вывод

GPT-5.5 — это ещё плюс один шаг в сторону агентов, которые реально доводят работу до конца. По бенчмаркам OpenAI обогнала Claude Opus 4.7 и Gemini 3.1 Pro в агентном кодинге, офисных задачах и кибер-тестах. В публичном SWE-Bench Pro Claude ещё держит первое место, так что никакого «всё, Anthropic в нокауте» не случилось. Просто в очередной раз поменялись позициями.

Что реально круто: модель меньше «сдаётся на середине», лучше держит длинный контекст, эффективнее по токенам. Для тех, кто пишет код в Cursor, Codex или собирает агентов, это самое заметное улучшение. Для исследователей Pro-версия открывает задачи, которые раньше не вытягивали вообще.

По цене GPT-5.5 стала дороже GPT-5.4, но OpenAI настаивает, что за счёт лучшей токен-эффективности в итоге выходит дешевле. Поверим и посмотрим. На полноценные выводы нужно несколько недель реальной работы.

Если хочется конкретики: я бы сейчас пробовал GPT-5.5 в Codex на одной рабочей задаче и сравнил с Claude Opus 4.7 и тем, чем вы пользуетесь сейчас. Бенчмарки бенчмарками, но только на своих сценариях видно, где модель реально тянет.

🧪

Слежу, какая модель реально выигрывает в рабочих задачах, а не только на бенчмарках — подписывайся в телеге.

Что ещё почитать

Claude Opus 4.7: обзор новой модели Anthropic — главный конкурент, чемпион SWE-Bench Pro
GLM-5.1: китайская модель на 94,6% от Claude Opus в кодинге — дешёвая альтернатива для тех, кто считает токены
Qwen 3.6-Plus: Alibaba бросает вызов Claude в агентном кодинге — ещё одна агентная модель из Китая
ChatGPT Images 2.0: новый генератор OpenAI — что ещё OpenAI выкатила в эту же неделю