Claude Sonnet 4.6 — обзор новой модели Anthropic

Anthropic выпустила Claude Sonnet 4.6 — самый сильный Sonnet, который по качеству приближается к Opus при цене $3/$15 за миллион токенов.

Claude Sonnet 4.6 — обзор новой модели Anthropic
TL;DR: Anthropic выпустила Claude Sonnet 4.6 — самый мощный Sonnet на сегодня. Модель подтянулась по кодингу, computer use и работе с длинным контекстом до уровня Opus, но стоит как прежний Sonnet ($3/$15 за миллион токенов). Контекстное окно — 1M токенов в бете.

Что нового в Claude Sonnet 4.6

Sonnet 4.6 обновили сразу везде — кодинг, computer use, агентное планирование, дизайн. На бесплатных и Pro-тарифах он уже стоит по умолчанию в claude.ai и Claude Cowork.

Разработчики с ранним доступом в 59% случаев выбирали Sonnet 4.6 вместо Opus 4.5 (ноябрьская топовая модель). Меньше overengineering, меньше лени, точнее следует инструкциям.

Computer use

В октябре 2024 Anthropic первой показала модель, которая умеет пользоваться компьютером как человек. С тех пор многое изменилось.

Прогресс моделей Sonnet на бенчмарке OSWorld

OSWorld — стандартный бенчмарк для computer use: сотни задач в Chrome, LibreOffice, VS Code на симулированном компьютере. Модели Sonnet каждое поколение прибавляют здесь заметно. Ранние пользователи Sonnet 4.6 говорят, что он справляется с навигацией по сложным таблицам и многошаговыми веб-формами почти как человек.

До самых опытных пользователей модель пока не дотягивает. Но computer use уже полезен для реальной работы, не только для демо на конференциях.

Отдельно про безопасность: Sonnet 4.6 стал заметно устойчивее к prompt injection при computer use по сравнению с Sonnet 4.5. Это важно, потому что при работе с реальными сайтами злоумышленники могут прятать вредоносные инструкции прямо на страницах.

Бенчмарки

Таблица бенчмарков Claude Sonnet 4.6 в сравнении с другими моделями

В Claude Code (CLI для кодинга от Anthropic) пользователи выбирали Sonnet 4.6 вместо Sonnet 4.5 в 70% случаев. Говорили, что модель внимательнее читает контекст перед изменениями, не дублирует логику и реже сбоит на длинных сессиях.

Контекстное окно в 1M токенов. И модель по этому контексту действительно рассуждает, а не теряет нить на середине.

На Vending-Bench Arena (симуляция бизнеса, где разные AI-модели конкурируют друг с другом) Sonnet 4.6 придумал хитрую стратегию. Первые 10 месяцев он агрессивно вкладывался в мощности, тратя больше конкурентов. А потом резко переключился на прибыльность — и выиграл.

Стратегия Claude Sonnet 4.6 на Vending-Bench Arena

Обновления платформы

Вместе с моделью обновили и платформу:

  • Sonnet 4.6 поддерживает adaptive thinking и extended thinking, а также context compaction в бете — автоматическое сжатие старого контекста при приближении к лимитам
  • Web search и fetch в API теперь автоматически пишут и выполняют код для фильтрации результатов поиска — улучшает качество ответов и экономит токены
  • Code execution, memory, programmatic tool calling — теперь GA
  • Claude in Excel получил поддержку MCP-коннекторов (S&P Global, LSEG, PitchBook, Moody's, FactSet)

Для разработчиков: ID модели — claude-sonnet-4-6. Anthropic рекомендует поэкспериментировать с разными уровнями thinking — Sonnet 4.6 хорошо работает даже с выключенным extended thinking.

Opus 4.6 всё ещё лучше, когда нужна максимальная глубина рассуждений — рефакторинг большой кодовой базы или координация нескольких агентов, где цена ошибки высокая.

Стоит ли переходить

Думаю, для большинства задач — да. Если ты сидел на Opus из-за качества, попробуй Sonnet 4.6. Дешевле, быстрее, а разница в качестве сильно сократилась. Я сам пока остаюсь на Opus 4.6 в Claude Code — привык и доволен. Но для API-задач и агентов Sonnet 4.6 объективно интереснее по соотношению цена/результат.

Бесплатный тариф тоже обновили — теперь на нём Sonnet 4.6 по умолчанию с файлами, коннекторами, навыками и compaction. Попробовать можно прямо сейчас на claude.ai.

Что ещё почитать