GPT-5.3 Codex Spark — 1000 токенов/с на чипах Cerebras
OpenAI выпустила компактную версию GPT-5.3 Codex для мгновенного кодинга на чипах Cerebras. Research preview для ChatGPT Pro.
TL;DR: OpenAI выпустила Codex Spark — компактную версию GPT-5.3 Codex для кодинга в реальном времени. Модель работает на чипах Cerebras, выдаёт больше 1000 токенов в секунду и доступна в research preview для подписчиков ChatGPT Pro.
OpenAI выпустила Codex Spark — уменьшенную версию GPT-5.3 Codex, заточенную под мгновенные правки кода. Работает на специализированных чипах Cerebras с отдачей 1000+ токенов в секунду. Пока доступна только для ChatGPT Pro в режиме research preview.
Что такое Codex Spark
Если коротко — это облегчённый GPT-5.3 Codex. Модель оптимизирована под интерактивную работу: ты пишешь код, она мгновенно правит, рефакторит или дописывает. Не автономная работа на часы, а диалог в реальном времени.
Характеристики на старте:
- Скорость — более 1000 токенов/с
- Контекстное окно — 128k токенов
- Только текст, мультимодальность обещают позже
- Отдельные лимиты, не пересекаются с основными моделями
На бенчмарках SWE-Bench Pro и Terminal-Bench 2.0 (оба оценивают агентную разработку) Spark показывает сильные результаты, выполняя задачи за долю времени полного Codex. Конкретных цифр OpenAI не приводит, что немного раздражает — хотелось бы видеть точные проценты.
Зачем OpenAI понадобился Cerebras
Codex Spark работает на Cerebras Wafer Scale Engine 3 — специализированном чипе для инференса с минимальной задержкой. Партнёрство с Cerebras OpenAI объявили ещё в январе 2026 года, и Spark стал первым результатом.
Шон Лай, CTO и сооснователь Cerebras, говорит: «Нас больше всего вдохновляет возможность вместе с OpenAI и сообществом разработчиков понять, что становится возможным с быстрым инференсом — новые паттерны взаимодействия, новые сценарии».
GPU при этом никуда не деваются. OpenAI продолжает использовать их для обучения и обычного инференса. Cerebras дополняет: для задач с минимальной задержкой идут чипы Cerebras, для всего остального — GPU. По словам OpenAI, их можно комбинировать в рамках одной задачи.
Что конкретно улучшили по скорости
Помимо модели, OpenAI переработали всю инфраструктуру запросов. Вот цифры:
- Задержка round-trip клиент-сервер снижена на 80%
- Overhead на каждый токен — на 30%
- Time-to-first-token (время до первого токена) — на 50%
Добились этого через persistent WebSocket вместо обычных HTTP-запросов и оптимизации внутри Responses API. WebSocket включён для Spark по умолчанию и скоро станет стандартом для всех моделей OpenAI.
Думаю, это даже важнее самого Spark. Улучшения инфраструктуры коснутся всех моделей, не только этой.
Как это выглядит на практике
Codex теперь работает в двух режимах.
Spark — для быстрых правок. Поменять логику, отрефакторить функцию, поправить интерфейс. Ответ приходит почти мгновенно. По умолчанию модель делает минимальные точечные правки и не запускает тесты, пока ты сам не попросишь. Её можно прерывать и перенаправлять прямо во время работы.
Полный Codex — для долгих задач. Написать модуль с нуля, провести масштабный рефакторинг, работать автономно часами или даже днями.
В будущем OpenAI обещает, что режимы сольются. Ты общаешься в реальном времени, а Codex параллельно делегирует долгие задачи суб-агентам или раскидывает работу на несколько моделей одновременно. Звучит интересно, но пока это только планы.
Кому доступен Codex Spark
Пока это research preview с ограниченным доступом:
- ChatGPT Pro — через приложение Codex, CLI и VS Code extension
- API — для узкого круга дизайн-партнёров
- Расширение доступа обещают в ближайшие недели
Лимиты отдельные и могут меняться в зависимости от нагрузки. При высоком спросе возможны очереди.
Мне кажется, OpenAI делает правильный ход. У GPT-5.3 Codex проблема была не в качестве — модель и так сильная. Проблема в скорости. Ждать минуту-две ответа при интерактивном кодинге невозможно. Ты теряешь контекст, отвлекаешься, и работа идёт рывками.
Anthropic решает похожую задачу через Fast Mode в Claude Code — тот же Opus 4.6, но с ускоренной генерацией. OpenAI пошли дальше: сделали отдельную модель плюс переписали инфраструктуру. Не знаю пока, какой подход лучше на практике — нужно тестировать обе.
Правда, пока это research preview только для Pro-подписчиков (200$/мес). Массовое использование ещё впереди. Но направление верное: если AI-ассистент для кода не отвечает мгновенно, им просто не хочется пользоваться.
Часто задаваемые вопросы
Codex Spark бесплатный?
Нет. Модель доступна только подписчикам ChatGPT Pro за $200/мес. В API — для узкого круга партнёров. Когда расширят доступ и сколько будет стоить отдельно, OpenAI пока не сообщают.
Чем Spark отличается от обычного GPT-5.3 Codex?
Spark компактнее и быстрее. Заточен под мгновенные правки и интерактивную работу. Полный Codex — под долгие автономные задачи на часы и дни. На сложных задачах Spark уступает, но для повседневного кодинга хватает.
Работает ли Spark с изображениями?
Пока нет — модель текстовая с контекстом 128k токенов. Мультимодальный ввод OpenAI обещают добавить в следующих обновлениях.
Можно ли использовать через API?
Сейчас API открыт только для дизайн-партнёров. Расширение доступа планируется по мере отладки интеграции под реальными нагрузками.
Что ещё почитать
- GPT-5.3 Codex — модель, которая помогала создавать саму себя — полный обзор основной модели
- GPT-5.3 Codex vs Claude Opus 4.6 — сравнение двух топовых моделей для кода
- Fast Mode в Claude Code — как Anthropic решает ту же задачу со скоростью