OpenAI

GPT-5.4: computer use, tool search и 1M контекст

OpenAI выпустила GPT-5.4 — фронтирную модель с нативным computer use, tool search и контекстом до 1M токенов. Разбираю бенчмарки, цены и что изменилось.

Pavel Matveev

05 мар. 2026 — 4 min read

TL;DR: OpenAI выпустила GPT-5.4 — модель, которая объединяет coding-мощь GPT-5.3-Codex с нативным computer use, tool search и контекстным окном до 1M токенов. По бенчмаркам обходит GPT-5.2 практически везде, а на OSWorld превзошла даже человека.

Если ты следил за обновлениями OpenAI последних месяцев, то помнишь: сначала GPT-5.2 для reasoning, потом GPT-5.3-Codex для кода. Два отдельных трека, два отдельных выбора. GPT-5.4 собирает это в одну модель — и добавляет сверху computer use, который раньше был только у Claude.

Что умеет GPT-5.4

GPT-5.4 — первая general-purpose модель OpenAI с нативным computer use. Модель управляет компьютером: кликает, набирает текст, работает с приложениями через скриншоты и Playwright. На OSWorld-Verified она набрала 75.0% — выше человеческого уровня (72.4%) и на 28 пунктов больше GPT-5.2.

Сравнение работы с таблицами GPT-5.2 vs GPT-5.4

Контекстное окно выросло до 1 миллиона токенов (экспериментально в Codex). Стандартное окно осталось на 272K, а запросы сверх него тарифицируются по двойной ставке.

Ещё одна штука, которая мне кажется важнее. Раньше все определения инструментов грузились в промпт целиком. Если у тебя 30+ MCP-серверов, это десятки тысяч токенов на каждый запрос. Теперь модель получает лёгкий список и подгружает определения по мере надобности. По данным OpenAI, на бенчмарке MCP Atlas это снизило расход токенов на 47% при той же точности. Кстати, у Claude Code похожая механика уже есть — я писал про это.

Бенчмарки — цифры

Вот ключевые результаты в сравнении с GPT-5.2 и GPT-5.3-Codex:

Бенчмарк	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (профессиональные задачи)	83.0%	70.9%	70.9%
SWE-Bench Pro	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%	47.3%
BrowseComp (поиск в вебе)	82.7%	77.3%	65.8%
Toolathlon (работа с инструментами)	54.6%	51.9%	46.3%
ARC-AGI-2	73.3%	—	52.9%

Больше всего впечатляет GDPval — модель совпадает или превосходит профессионалов в 83% случаев по 44 профессиям. Это задачи типа «сделай sales-презентацию» или «построй модель в Excel». Кстати, на внутреннем бенчмарке инвестбанковского моделирования GPT-5.4 набрала 87.3% против 68.4% у GPT-5.2.

Computer use — подробнее

Модель работает двумя способами: пишет код через Playwright или управляет через скриншоты + мышь/клавиатура. Разработчики могут настраивать поведение через системные промпты и задавать кастомные confirmation policies для разных уровней риска.

В Codex появился экспериментальный навык Playwright (Interactive) — модель может визуально дебажить веб-приложения и даже тестировать их прямо во время написания кода.

На WebArena-Verified модель показала 67.3%, а на Online-Mind2Web через скриншоты — 92.8% (против 70.9% у ChatGPT Atlas Agent Mode).

Thinking с пояснениями

В ChatGPT модель теперь показывает план рассуждений до начала работы. Можно скорректировать направление прямо во время ответа, не дожидаясь конца. Раньше приходилось ждать полный ответ, потом переформулировать, потом ждать снова. Теперь один раунд вместо трёх.

Модель также лучше держит контекст при длинных рассуждениях — меньше «забывает» что было в начале диалога.

Галлюцинации и факты

По сравнению с GPT-5.2: - Отдельные утверждения на 33% реже оказываются ложными - Полные ответы на 18% реже содержат хотя бы одну ошибку

OpenAI называет GPT-5.4 «самой фактологичной моделью» на сегодня. Насколько это чувствуется в ежедневной работе, покажет время.

Цены API

Модель стала дороже по цене за токен, но эффективнее по расходу:

Модель	Input	Cached input	Output
gpt-5.2	$1.75/M	$0.175/M	$14/M
gpt-5.4	$2.50/M	$0.25/M	$15/M
gpt-5.2-pro	$21/M	—	$168/M
gpt-5.4-pro	$30/M	—	$180/M

Input подорожал на 43%, output — на 7%. Но OpenAI утверждает, что GPT-5.4 тратит меньше токенов на reasoning, так что итоговый счёт может оказаться ниже. Посмотрим. Batch и Flex — по полцены, Priority processing — по двойной.

Безопасность

OpenAI классифицирует GPT-5.4 как High cyber capability.

Ещё OpenAI проверяла CoT controllability — может ли модель намеренно скрывать ход рассуждений от мониторинга. У GPT-5.4 способность «прятать мысли» оказалась низкой. То есть chain-of-thought мониторинг пока работает, модель не научилась его обманывать.

Доступность

В ChatGPT модель доступна для Plus, Team и Pro — заменяет GPT-5.2 Thinking. Старая версия уходит в Legacy Models на три месяца, до 5 июня 2026. GPT-5.4 Pro — только для Pro и Enterprise.

В API модели доступны как gpt-5.4 и gpt-5.4-pro. В Codex /fast режим даёт до 1.5x ускорение при том же качестве.

Вывод

Честно, я не ожидал, что OpenAI так быстро догонит Claude по computer use. 75% на OSWorld — это серьёзно. Но бенчмарки и реальная работа это разные вещи, так что пока не тестирую сам — рано делать выводы.

Что точно радует — tool search. Для агентских сценариев с кучей MCP-серверов это заметно упрощает жизнь. Буду тестировать на реальных задачах.

FAQ

Чем GPT-5.4 отличается от GPT-5.2?

GPT-5.4 объединяет coding-возможности GPT-5.3-Codex с reasoning GPT-5.2, добавляя нативный computer use, tool search и контекст до 1M токенов. На бенчмарке OSWorld она набрала 75% против 47.3% у GPT-5.2.

Сколько стоит GPT-5.4 в API?

Input — $2.50 за миллион токенов, output — $15 за миллион. Cached input — $0.25/M. Batch и Flex доступны по половине стоимости, Priority processing — по двойной.

GPT-5.4 умеет управлять компьютером?

Да, GPT-5.4 — первая general-purpose модель OpenAI с нативным computer use. Она может кликать, набирать текст, работать с приложениями через скриншоты и Playwright. На OSWorld-Verified превзошла человеческий уровень — 75% против 72.4%.

Когда уберут GPT-5.2?

GPT-5.2 Thinking останется в Legacy Models до 5 июня 2026 года, после чего будет отключена. GPT-5.4 Thinking заменяет её как основную модель для Plus, Team и Pro подписок.

Что ещё почитать

GPT-5.3 Instant: что нового в модели ChatGPT — предыдущая модель OpenAI, облегчённая версия
Мультиагенты в OpenAI Codex — настройка и примеры — как работают агенты в Codex
WebSocket Mode в OpenAI API: агенты быстрее на 40% — оптимизация API для агентов