Claude

Claude Opus 4.8: что нового против Opus 4.7

Чем Claude Opus 4.8 отличается от 4.7: бенчмарки, честность модели, dynamic workflows в Claude Code и контроль усилий. Разбираемся, стоит ли переключаться.

Pavel Matveev

28 мая 2026 — 4 min read

TL;DR: Anthropic обновила флагман до Claude Opus 4.8. Цена та же, что у 4.7 ($5 за миллион входных токенов и $25 за выходные), а прирост по бенчмаркам есть, но скромный. Главное изменение не в цифрах, а в честности: модель примерно вчетверо реже пропускает собственные баги в коде и чаще говорит «я не уверен» вместо выдуманного результата. Плюс в Claude Code завезли dynamic workflows с сотнями параллельных субагентов.

Anthropic выпустила Claude Opus 4.8 и сама же называет апдейт «скромным, но ощутимым». Это честнее, чем привычные релизные лозунги, и довольно точно описывает суть. Если ты сидишь на 4.7, революции не жди. Но пара вещей тут реально меняет повседневную работу, и кому-то есть смысл переключиться прямо сейчас.

Что изменилось против Opus 4.7

Цена осталась прежней, а модель стала аккуратнее в агентных задачах. По данным Anthropic, 4.8 лучше держит контекст в длинной сессии, эффективнее зовёт инструменты (меньше шагов на тот же результат) и доводит задачи до конца, а не бросает на середине.

Цифры из заявлений ранних тестеров:

На Online-Mind2Web (это про управление браузером и компьютером) Opus 4.8 набрала 84%. Это заметный скачок относительно 4.7 и обходит GPT-5.5.
На внутреннем Super-Agent benchmark одной из команд 4.8 оказалась единственной моделью, прошедшей все кейсы от начала до конца, при паритете по цене с GPT-5.5.
На Legal Agent Benchmark от Harvey она первой пробила планку 10% по строгому стандарту all-pass.
В Genie у Databricks 4.8 рассуждает над PDF, диаграммами и прочим неструктурированным контентом на 61% дешевле по токенам, чем 4.7.

Бенчмарки Claude Opus 4.8 в сравнении с Opus 4.7 и другими моделями

Полные замеры лежат в System Card модели. Я бы не относился к чужим бенчмаркам как к истине в последней инстанции, но тренд понятен: апдейт точечный, основной упор сделан на агентную надёжность.

Честность как главная фишка релиза

Anthropic отдельно подсветила, что прокачивала именно честность модели. Общая болячка всех LLM в том, что они любят перепрыгнуть к выводу и уверенно заявить «всё готово», хотя доказательств нет. По их замерам, Opus 4.8 примерно вчетверо реже предыдущей версии оставляет без комментария дыры в коде, который сам же написал.

График: Opus 4.8 реже пропускает флаги в собственном коде

На практике это значит, что модель чаще отмечает неуверенность и реже выдаёт непроверенные утверждения за факт. Для тех, кто гоняет агентов без присмотра, это важнее любого процента на бенчмарке. Команда Devin отдельно отметила, что 4.8 починила болтливость в комментариях и кривые вызовы инструментов, которые были у 4.7.

Anthropic также прогнала alignment-оценку перед релизом. По её итогам у 4.8 заметно ниже показатели нежелательного поведения (вроде обмана или подыгрывания злоупотреблениям), чем у 4.7. Уровень сопоставим с их лучшей по выравниванию моделью, Claude Mythos Preview.

Dynamic workflows в Claude Code

Вместе с моделью в Claude Code приехала функция dynamic workflows. Пока в режиме research preview и только на планах Enterprise, Team и Max.

Идея такая: Claude сам планирует работу, запускает сотни параллельных субагентов в одной сессии, а потом проверяет результат перед тем, как отдать его тебе. С Opus 4.8 субагенты могут работать дольше. Anthropic приводит пример: миграция кодовой базы на сотни тысяч строк от запуска до мёрджа, где планкой качества выступает существующий набор тестов.

Это логичное продолжение того, куда Anthropic тащит Claude Code. Если следил за автономным режимом /goal, где Claude работает до результата сам, то dynamic workflows примерно про то же, но с упором на масштаб и распараллеливание. А следить за тем, что творят все эти субагенты, удобнее через Agent View с единой панелью сессий.

✈️

Разбираю апдейты Claude Code и приёмы работы с агентами — подписывайся в телеге.

Контроль усилий и мелочи для разработчиков

Ещё одна вещь, которая касается всех. В claude.ai и Cowork появился контроль усилий (effort) рядом с выбором модели. На высоких настройках Claude думает чаще и глубже, на низких отвечает быстрее и экономнее тратит лимиты. Доступно на всех тарифах.

Opus 4.8 по умолчанию стоит на high, и Anthropic считает это лучшим балансом. На задачах с кодом high тратит примерно столько же токенов, сколько дефолт у 4.7, но выдаёт результат получше. Есть ещё extra (в Claude Code это xhigh) и max для совсем тяжёлых случаев. Для долгих асинхронных задач советуют extra.

💡

Не держи max включённым постоянно: на обычных задачах он жрёт лимиты без видимой пользы. Дефолтный high покрывает почти всё, extra доставай под сложные и долгие прогоны.

Для тех, кто пишет на API, есть приятная мелочь: Messages API теперь принимает системные записи прямо внутри массива messages. Можно обновлять инструкции модели по ходу задачи, не ломая кэш промпта и не прогоняя апдейт через ход пользователя. Удобно для агентов, которым нужно на лету менять права, бюджеты токенов или контекст окружения.

Цена, fast mode и что дальше

Цена обычного использования не изменилась: $5 за миллион входных токенов и $25 за выходные. Fast mode (модель работает в 2,5 раза быстрее) стоит $10 и $50 соответственно, и это в три раза дешевле, чем fast mode был у прошлых моделей. В API модель доступна как claude-opus-4-8.

Отдельно Anthropic тизерит следующий шаг. В рамках Project Glasswing небольшое число организаций уже использует Claude Mythos Preview для задач кибербезопасности. Это новый класс моделей, мощнее Opus, и им нужны более серьёзные защитные механизмы перед открытым релизом. Обещают выкатить Mythos-класс всем в ближайшие недели. Звучит как заявка на то, что Opus перестанет быть верхней планкой линейки.

Вывод

Стоит ли переключаться на 4.8? Если работаешь с агентами, кодом или браузерной автоматизацией, то да, причём бесплатно: цена та же, а надёжность выше. Думаю, главная ценность не в процентах на бенчмарках, а в том, что модель меньше врёт про собственную работу. Для людей, которые доверяют агенту реальные задачи, это дороже пары очков на тесте.

Если же ты используешь Claude для обычных текстов и вопросов, разница будет почти незаметной. Anthropic тут не лукавит, называя апдейт скромным. Но мне нравится сам вектор: вместо гонки за абстрактным интеллектом упор на честность и надёжность. В ежедневной работе это решает.

Что ещё почитать

Claude Code /goal: автономная работа Claude до результата — про автономный режим, идейного предка dynamic workflows
Claude Code Agent View: одна панель для всех сессий — как следить за множеством агентных сессий сразу