Claude Opus 4.6 - Anthropic выпустили свою самую умную модель

Anthropic выпустили Claude Opus 4.6 с контекстом в миллион токенов, улучшенным кодингом и агентными командами. Разбираемся, что нового.

Claude Opus 4.6 - Anthropic выпустили свою самую умную модель
TL;DR: Anthropic выпустили Claude Opus 4.6 - обновление самой мощной модели в линейке. Контекстное окно выросло до миллиона токенов, появились команды агентов в Claude Code, adaptive thinking и управление «усилием» модели. По бенчмаркам Opus 4.6 опережает GPT-5.2 и все остальные фронтир-модели.

Anthropic не стали тянуть с обновлением флагмана. Claude Opus 4.6 вышел сегодня и доступен везде — в claude.ai, через API и на всех облачных платформах. Цена та же — $5/$25 за миллион токенов. Разбираю, что реально изменилось.

Контекст наконец-то миллион

Это первая модель Opus-класса с контекстом в 1М токенов (пока в бета). Раньше приходилось как-то ужиматься, а теперь можно скормить модели целую кодовую базу или стопку документов.

И тут Anthropic показали интересные цифры. На бенчмарке MRCR v2 (это когда нужно найти иголки в стоге сена из текста) Opus 4.6 набрал 76%, а предыдущий Sonnet 4.5 — всего 18.5%. Четырёхкратная разница. То есть модель реально не теряет нить на длинных контекстах, а не просто формально поддерживает миллион токенов.

Кодинг стал заметно лучше

Opus 4.6 занял первое место на Terminal-Bench 2.0 — агентном бенчмарке для кодинга. По отзывам ранних пользователей, модель лучше планирует и дольше держит фокус. А ещё ловит свои же ошибки при ревью кода, что раньше было больным местом.

Один из партнёров рассказал, что модель провела миграцию кодовой базы на несколько миллионов строк «как сеньор-инженер». Закончила вдвое быстрее ожидаемого. Звучит слишком красиво, но тренд понятен агентные задачи на больших проектах становятся реальнее с каждым релизом.

Agent Teams в Claude Code

Вот это самое-самое интересное для разработчиков. В Claude Code теперь можно собирать команды агентов, которые работают параллельно. Например, один агент ревьюит код, другой пишет тесты, третий исследует кодовую базу — и все координируются между собой.

Переключаться между агентами можно через Shift+Up/Down или tmux. Пока это research preview, но направление крутое. Я уже писал про мультиагентные подходы — и вот, теперь это встроено прямо в Claude Code.

Adaptive Thinking и управление усилием

Раньше extended thinking включался или выключался. Теперь модель сама решает, когда ей нужно подумать подольше. Это называется adaptive thinking.

Вдобавок появились четыре уровня «усилия» — low, medium, high (по умолчанию) и max. Простой вопрос? Ставишь medium и экономишь токены. Сложная задача? Max. Для тех, кто работает с API, это удобно — можно подбирать баланс под конкретную задачу, а не платить за максимум всегда.

Context Compaction

Ещё одна новинка для API — автоматическое сжатие контекста. Когда разговор приближается к лимиту, модель сама резюмирует старую часть и продолжает работать. Для длительных агентных сессий это спасение — раньше приходилось вручную укладываться в контекстное окно.

Бенчмарки

На Humanity's Last Exam (сложный мультидисциплинарный тест) Opus 4.6 обогнал все фронтир-модели. На GDPval-AA (задачи из финансов, юриспруденции и других профессиональных областей) опередил GPT-5.2 на 144 Elo-пункта. На BrowseComp (поиск труднодоступной информации) тоже лучший результат.

Не уверен, насколько бенчмарки переносятся на реальные задачи, но разрыв с конкурентами выглядит существенным. Особенно если учесть, что цена не изменилась.

Безопасность

Anthropic говорят, что улучшение интеллекта не привело к снижению безопасности. Opus 4.6 показал самый низкий уровень ложных отказов среди всех моделей Claude — это когда модель отказывается отвечать на безобидные вопросы. При этом уровень «несогласованного поведения» остался на уровне Opus 4.5 или ниже.

Ещё момент: раз модель стала сильнее в кибербезопасности, Anthropic добавили шесть новых проверок на случай злоупотребления. Логично — мощность растёт, защита тоже должна.

Excel и PowerPoint

Claude теперь лучше работает с Excel — сам определяет структуру данных и делает многоэтапные изменения за один проход. Появилась интеграция с PowerPoint (research preview для Max, Team и Enterprise), где Claude учитывает твои шаблоны и стили при создании слайдов.

Если ты готовишь отчёты и презентации, стоит попробовать. Не знаю, насколько это будет работать на сложных макетах, но для типовых задач может сэкономить кучу времени.

В итоге

Вообще, Anthropic тут сделали сразу много всего. Миллион токенов контекста, agent teams, adaptive thinking, context compaction. Любая из этих штук по отдельности была бы заметным обновлением, а тут всё разом.

Для разработчиков модель доступна по ID claude-opus-4-6. Цена прежняя. Если ты уже работаешь с Claude через API или Claude Code, попробуй переключиться. Особенно на длинных задачах разница должна быть ощутимой.

Claude Opus 4.6
We’re upgrading our smartest model. Across agentic coding, computer use, tool use, search, and finance, Opus 4.6 is an industry-leading model, often by wide margin.

Что ещё почитать