Pavel Matveev - Matveev Tech

LLM

GLM-5.1: китайская модель на 94.6% от Claude Opus в кодинге

GLM-5.1 набрала 45.3 балла в кодинг-бенчмарке — всего 2.6 балла от Claude Opus 4.6. Обучена на чипах Huawei, скоро выйдет в open source под MIT.

LLM

Qwen 3.6-Plus: Alibaba бросает вызов Claude в агентном кодинге

Alibaba выпустила Qwen 3.6-Plus с контекстом в 1 миллион токенов. Модель обходит Claude на Terminal-Bench и претендует на лидерство в агентном кодинге.

Google

Gemma 4: открытые модели Google на технологиях Gemini 3

Google выпустил Gemma 4 — четыре открытые модели от 2B до 31B параметров на технологиях Gemini 3. 31B занимает третье место среди открытых моделей, а E2B работает на Raspberry Pi за 1.5 ГБ памяти.

Новости

Microsoft MAI: три модели для голоса, транскрипции и картинок

Microsoft представила MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. Собственные модели, агрессивные цены и явный курс на независимость от OpenAI.

Claude

Claude Computer Use и Dispatch: AI управляет компьютером с телефона

Anthropic добавила Computer Use в Claude Cowork и Code. AI кликает, скроллит и управляет приложениями, а Dispatch позволяет давать задания с телефона.

Новости

Gemini 3.1 Flash Live: голосовые агенты Google стали точнее

Google выпустила лучшую аудиомодель в линейке Gemini. Быстрые ответы, понимание интонаций и расширение Search Live на 200+ стран.

Новости

Claude Code auto mode: AI сам решает, что безопасно

Anthropic запустил auto mode в Claude Code: вместо ручного одобрения каждого действия AI-классификатор сам решает, безопасно ли выполнение.

Разработка

8 уровней агентного инжиниринга

Bassim Eledath предложил фреймворк из 8 уровней агентного инжиниринга. От автокомплита в Copilot до автономных команд агентов, которые координируются между собой без человека.

AI

Qoder vs Cursor: два AI-IDE, разные философии

Cursor — зрелый мультимодельный IDE с enterprise-фичами. Qoder — молодой конкурент от Alibaba с Quest Mode и Repo Wiki. Разбираемся, кому что ближе.

AI

MiniMax M2.7: модель, которая сама себя обучала

Китайская MiniMax выпустила M2.7 — первую модель, которая активно участвовала в собственной эволюции. Бенчмарки на уровне топовых закрытых моделей.

AI

Чего 81 000 людей хотят от AI: исследование Anthropic

Anthropic пригласила 80 508 пользователей Claude из 159 стран на интервью с AI-интервьюером. Результат — крупнейшее качественное исследование: что люди ждут от AI, что уже получают и чего боятся.

глоссарий

Что такое agent harness: обвязка, которая делает AI полезным

Agent harness — всё, что окружает AI-модель и превращает её в рабочего агента. Разбираем компоненты, примеры и отличие от framework.