Дайджест 2 - 8 марта 2026

GPT-5.4 получил computer use, OpenAI догоняет Claude. Честный тир-лист всех плагинов Cowork. Google выпустил самую дешёвую модель серии.

TL;DR: На этой неделе OpenAI выкатила GPT-5.4 с computer use и контекстом на миллион токенов, я разобрал все 21 плагин Claude Cowork по полочкам, а Google выпустил самую дешёвую модель в линейке Gemini 3.

GPT-5.4: OpenAI догоняет Claude по computer use

OpenAI объединила coding из GPT-5.3-Codex и reasoning из GPT-5.2 в одну модель, добавив нативный computer use. На OSWorld-Verified GPT-5.4 набрала 75%, что выше человеческого уровня (72.4%) и на 28 пунктов больше предшественника. Контекст вырос до 1M токенов. А tool search снижает расход токенов на 47% при работе с MCP-серверами.

Честно, не ожидал такой скорости. Полгода назад computer use был фишкой только Claude, а теперь OpenAI показывает результаты выше человека. Правда, бенчмарки и повседневная работа часто расходятся, так что подожду реальных тестов.

Читать полный обзор →

21 плагин Claude Cowork — кто стоит внимания

Anthropic выпустила уже две волны плагинов для Cowork — итого 21 штука. Я потестировал каждый и составил честный тир-лист. Коротко: ставить немедленно стоит Data Analysis (кидаешь CSV → получаешь SQL и инсайты) и Productivity (через неделю настройки Claude начинает работать как ассистент, который помнит твои задачи). Legal наделал шума — софтверные акции потеряли $285 млрд за день, Thomson Reuters упала на 17%.

Но меня больше зацепила стратегия. Плагины — это markdown-файлы, ни строчки кода. Anthropic строит платформу, где экспертизу может упаковать любой.

Читать тир-лист →

Gemini 3.1 Flash-Lite: $0.25 за миллион токенов

Google выпустил самую быструю и дешёвую модель в линейке Gemini 3. Входные токены — $0.25/M, первый ответ приходит в 2.5 раза быстрее предшественника. На Arena.ai модель набрала Elo 1432 — для такого ценника это серьёзно. Thinking levels из коробки позволяют регулировать глубину рассуждений под задачу.

Если у тебя есть пайплайны с кучей LLM-вызовов, Flash-Lite точно стоит потестить. Сложный reasoning не потянет, зато для перевода, модерации и разметки за такую цену конкурентов пока нет.

Читать обзор →

Ещё на этой неделе