Fast Mode в Claude Code — ускоряем Opus 4.6 за двойную цену

В Claude Code появился fast mode — тот же Opus 4.6, но быстрее. Разбираемся, когда это оправдано, а когда лучше не переплачивать.

Fast Mode в Claude Code — ускоряем Opus 4.6 за двойную цену
TL;DR: В Claude Code появился fast mode — тот же Opus 4.6, но с ускоренным инференсом. Качество ответов не меняется, зато латентность ниже. Платишь за это больше: $30/$150 за миллион токенов вместо стандартных $15/$75. Включается командой /fast.

Если ты пользуешься Claude Code, то знаешь это ощущение: ты отправил запрос, и сидишь, смотришь на мигающий курсор. Секунд пять. Десять. Двадцать. При быстрой итерации над кодом это бесит. Anthropic, видимо, тоже это понимали, потому что добавили fast mode.

Что за fast mode и зачем он нужен

Это тот же Opus 4.6, но с другой конфигурацией API, которая приоритизирует скорость над стоимостью. Ты получаешь такое же качество, такой же контекст, те же возможности. Просто ответы приходят быстрее.

Думаю, под капотом Anthropic выделяют для fast mode больше вычислительных ресурсов или используют другую стратегию батчинга — но деталей реализации они не раскрывают. Факт в том, что задержки заметно меньше, особенно на коротких запросах.

Сколько это стоит

Вот тут начинается самое интересное. Цены за миллион токенов:

Режим Input Output
Стандартный Opus 4.6 $15 $75
Fast mode (контекст до 200K) $30 $150
Fast mode (контекст больше 200K) $60 $225

То есть fast mode стоит в два раза дороже стандартного. А при больших контекстах — до трёх раз.

Есть нюанс: если ты включишь fast mode посреди разговора, весь предыдущий контекст пересчитывается по тарифу fast mode без кэширования. Поэтому экономичнее включать его в начале сессии, а не когда разговор уже набрал 100K токенов.

До 16 февраля 2026 года действует скидка 50% на fast mode для всех тарифов — можно попробовать по более мягкой цене.

Когда включать, а когда нет

Fast mode хорош для интерактивной работы:

  • Лайв-дебаг, когда каждая секунда на счету
  • Рабочие сессии, где ты активно пишешь код вместе с ассистентом

А вот для чего fast mode не нужен:

  • Длинные автономные задачи, где Claude работает сам, а ты пьёшь кофе
  • CI/CD пайплайны и батч-обработка
  • Любые сценарии, где бюджет важнее скорости

Fast mode vs effort level — в чём разница

В Claude Code есть ещё одна настройка скорости — effort level. Она работает иначе:

  • Fast mode ускоряет инференс, но не меняет качество. Модель думает столько же, просто железо быстрее.
  • Effort level (пониженный) сокращает время на «размышления» модели. Ответы быстрее, но на сложных задачах качество может пострадать.

Их можно комбинировать: fast mode + пониженный effort level даст максимальную скорость на простых задачах. Но я бы не стал понижать effort level для сложного рефакторинга — там каждая секунда «думания» окупается.

Как включить

Два способа:

  1. В терминале Claude Code набери /fast и нажми Tab. Появится сообщение «Fast mode ON» и иконка рядом с промптом.
  2. Добавь "fastMode": true в файл настроек пользователя.

Fast mode сохраняется между сессиями. Если ты включил его один раз — он останется включённым, пока ты не выключишь.

Когда включаешь fast mode, Claude Code автоматически переключается на Opus 4.6, если была выбрана другая модель. При выключении обратного переключения нет — нужно менять модель через /model.

Что нужно для работы

Не у всех fast mode доступен:

  • Нужна подписка Pro, Max, Team или Enterprise. Или аккаунт в Anthropic Console.
  • Extra usage должен быть включён — fast mode списывается только через extra usage, даже если у тебя остался лимит по подписке.
  • В Teams и Enterprise админ должен явно включить fast mode. По умолчанию он отключён.
  • Недоступно на сторонних облаках: Amazon Bedrock, Google Vertex AI, Microsoft Azure Foundry.

Если упираешься в рейт-лимиты fast mode, система автоматически переключается на стандартный Opus 4.6. Иконка становится серой, и ты продолжаешь работать на обычной скорости. Когда кулдаун пройдёт — fast mode включится обратно.

Стоит ли вообще платить за скорость

Я не уверен, что fast mode нужен всем. Если ты пишешь код пару часов в день и тебе нормально подождать лишние 10 секунд — стандартный режим вполне ок. Двойная цена за токены набегает быстро.

Но если ты в режиме «горит дедлайн, нужно итерировать быстро» — каждая сэкономленная секунда умножается на десятки запросов. И тогда разница в стоимости оправдана.

В целом, Anthropic делают правильно, что дают выбор. Хочешь скорость — платишь. Хочешь экономить — ждёшь. Лучше так, чем один фиксированный режим без вариантов.

Часто задаваемые вопросы

Можно ли использовать fast mode с расширенным контекстом на 1M токенов? Да, fast mode совместим с контекстным окном на миллион токенов. Но при контексте больше 200K цена вырастает ещё: $60 за input и $225 за output.

Fast mode расходует мою квоту по подписке? Нет. Fast mode всегда списывается через extra usage, даже если у тебя есть неизрасходованный лимит подписки. Это отдельная тарификация.

Что будет, если закончится extra usage? Claude Code автоматически переключится на стандартный режим Opus 4.6. Работа не прервётся, просто ответы будут приходить с обычной скоростью.

Speed up responses with fast mode - Claude Code Docs
Get faster Opus 4.6 responses in Claude Code by toggling fast mode.

Что ещё почитать