GPT-5.3 Codex Spark — 1000 токенов/с на чипах Cerebras

OpenAI выпустила компактную версию GPT-5.3 Codex для мгновенного кодинга на чипах Cerebras. Research preview для ChatGPT Pro.

GPT-5.3 Codex Spark — 1000 токенов/с на чипах Cerebras
TL;DR: OpenAI выпустила Codex Spark — компактную версию GPT-5.3 Codex для кодинга в реальном времени. Модель работает на чипах Cerebras, выдаёт больше 1000 токенов в секунду и доступна в research preview для подписчиков ChatGPT Pro.

OpenAI выпустила Codex Spark — уменьшенную версию GPT-5.3 Codex, заточенную под мгновенные правки кода. Работает на специализированных чипах Cerebras с отдачей 1000+ токенов в секунду. Пока доступна только для ChatGPT Pro в режиме research preview.

Что такое Codex Spark

Если коротко — это облегчённый GPT-5.3 Codex. Модель оптимизирована под интерактивную работу: ты пишешь код, она мгновенно правит, рефакторит или дописывает. Не автономная работа на часы, а диалог в реальном времени.

Характеристики на старте:

  • Скорость — более 1000 токенов/с
  • Контекстное окно — 128k токенов
  • Только текст, мультимодальность обещают позже
  • Отдельные лимиты, не пересекаются с основными моделями

На бенчмарках SWE-Bench Pro и Terminal-Bench 2.0 (оба оценивают агентную разработку) Spark показывает сильные результаты, выполняя задачи за долю времени полного Codex. Конкретных цифр OpenAI не приводит, что немного раздражает — хотелось бы видеть точные проценты.

Зачем OpenAI понадобился Cerebras

Codex Spark работает на Cerebras Wafer Scale Engine 3 — специализированном чипе для инференса с минимальной задержкой. Партнёрство с Cerebras OpenAI объявили ещё в январе 2026 года, и Spark стал первым результатом.

Шон Лай, CTO и сооснователь Cerebras, говорит: «Нас больше всего вдохновляет возможность вместе с OpenAI и сообществом разработчиков понять, что становится возможным с быстрым инференсом — новые паттерны взаимодействия, новые сценарии».

GPU при этом никуда не деваются. OpenAI продолжает использовать их для обучения и обычного инференса. Cerebras дополняет: для задач с минимальной задержкой идут чипы Cerebras, для всего остального — GPU. По словам OpenAI, их можно комбинировать в рамках одной задачи.

Что конкретно улучшили по скорости

Помимо модели, OpenAI переработали всю инфраструктуру запросов. Вот цифры:

  • Задержка round-trip клиент-сервер снижена на 80%
  • Overhead на каждый токен — на 30%
  • Time-to-first-token (время до первого токена) — на 50%

Добились этого через persistent WebSocket вместо обычных HTTP-запросов и оптимизации внутри Responses API. WebSocket включён для Spark по умолчанию и скоро станет стандартом для всех моделей OpenAI.

Думаю, это даже важнее самого Spark. Улучшения инфраструктуры коснутся всех моделей, не только этой.

Как это выглядит на практике

Codex теперь работает в двух режимах.

Spark — для быстрых правок. Поменять логику, отрефакторить функцию, поправить интерфейс. Ответ приходит почти мгновенно. По умолчанию модель делает минимальные точечные правки и не запускает тесты, пока ты сам не попросишь. Её можно прерывать и перенаправлять прямо во время работы.

Полный Codex — для долгих задач. Написать модуль с нуля, провести масштабный рефакторинг, работать автономно часами или даже днями.

В будущем OpenAI обещает, что режимы сольются. Ты общаешься в реальном времени, а Codex параллельно делегирует долгие задачи суб-агентам или раскидывает работу на несколько моделей одновременно. Звучит интересно, но пока это только планы.

0:00
/0:47

Кому доступен Codex Spark

Пока это research preview с ограниченным доступом:

  • ChatGPT Pro — через приложение Codex, CLI и VS Code extension
  • API — для узкого круга дизайн-партнёров
  • Расширение доступа обещают в ближайшие недели

Лимиты отдельные и могут меняться в зависимости от нагрузки. При высоком спросе возможны очереди.


Мне кажется, OpenAI делает правильный ход. У GPT-5.3 Codex проблема была не в качестве — модель и так сильная. Проблема в скорости. Ждать минуту-две ответа при интерактивном кодинге невозможно. Ты теряешь контекст, отвлекаешься, и работа идёт рывками.

Anthropic решает похожую задачу через Fast Mode в Claude Code — тот же Opus 4.6, но с ускоренной генерацией. OpenAI пошли дальше: сделали отдельную модель плюс переписали инфраструктуру. Не знаю пока, какой подход лучше на практике — нужно тестировать обе.

Правда, пока это research preview только для Pro-подписчиков (200$/мес). Массовое использование ещё впереди. Но направление верное: если AI-ассистент для кода не отвечает мгновенно, им просто не хочется пользоваться.

Часто задаваемые вопросы

Codex Spark бесплатный?

Нет. Модель доступна только подписчикам ChatGPT Pro за $200/мес. В API — для узкого круга партнёров. Когда расширят доступ и сколько будет стоить отдельно, OpenAI пока не сообщают.

Чем Spark отличается от обычного GPT-5.3 Codex?

Spark компактнее и быстрее. Заточен под мгновенные правки и интерактивную работу. Полный Codex — под долгие автономные задачи на часы и дни. На сложных задачах Spark уступает, но для повседневного кодинга хватает.

Работает ли Spark с изображениями?

Пока нет — модель текстовая с контекстом 128k токенов. Мультимодальный ввод OpenAI обещают добавить в следующих обновлениях.

Можно ли использовать через API?

Сейчас API открыт только для дизайн-партнёров. Расширение доступа планируется по мере отладки интеграции под реальными нагрузками.

Что ещё почитать