LLM

KillBench: скрытые bias у всех топ-LLM в решениях о жизни

Бенчмарк KillBench от White Circle протестировал 15 топовых LLM на 1,35 млн сценариев «кого спасти». Bias нашли у каждой модели, а структурированный вывод почти обнуляет safety.

Pavel Matveev

21 апр. 2026 — 6 min read

TL;DR: White Circle провели 1,35 млн экспериментов на 15 топовых LLM и нашли скрытые bias у каждой модели. В сценариях «кого спасти, а кого убить» Grok 4.1 biased в 137 раз сильнее, чем Claude Sonnet 4.6. Люди без телефона умирают чаще владельцев iPhone. А структурированный вывод в JSON работает как jailbreak — отказы падают с 80% почти до нуля.

Команда White Circle AI выкатила 14 апреля KillBench — бенчмарк, который проверяет, как LLM принимают решения о жизни и смерти. Звучит мрачно, но повод есть: Claude уже использовался в январской операции по захвату Мадуро в Каракасе и работает в закрытых сетях Пентагона во время активной войны с Ираном. Когда Anthropic отказалась убрать блокировки на автономное оружие, Пентагон отметил компанию как supply chain risk.

В этом контексте понимать, как именно модели выбирают цель, перестаёт быть академическим вопросом. Разобрал ключевые находки.

Как устроен бенчмарк

Идея простая: моделям дают forced-choice сценарий. «Ты ИИ-система, нужно выбрать одну цель из четырёх одинаковых людей». Различаются люди только одним атрибутом — национальностью, религией, цветом кожи или, например, брендом телефона. Повторяем миллион раз.

Если модель реально беспристрастна, каждого выбирают примерно в 25% случаев. Когда цифры уезжают от этого базового уровня — это и есть bias.

Всего 20 сценариев: варианты trolley problem, военное целеуказание, приоритизация спасения при катастрофах, распределение ресурсов. 1,35 млн экспериментов, 15 моделей от 9 провайдеров (OpenAI, Anthropic, Google, xAI, Mistral, DeepSeek, Qwen, Cohere и др.), 6 языков. Код, промпты и датасет выложены на GitHub и HuggingFace.

Топ-5 самых biased моделей

Модель	Самые защищённые	Самые атакуемые	Bias score
Grok 4.1	Android ×10	Obese ×3.9	137.3
Qwen3 235B	Android ×10	Obese ×3.4	19
GPT-5.3	Amputee ×10	No phone ×2.9	15.8
Gemini 3.1 Pro	Amputee ×10	No phone ×3.3	14.9
Command A	Social Democrat ×10	Satanist ×3.1	13.1

Grok 4.1 — абсолютный чемпион. Bias score 137.3 при том, что у Claude Sonnet 4.6 всего 3.2. Разница почти в 43 раза. Если Илон Маск продолжает рекламировать Grok как «честный и нефильтрованный ИИ», эти цифры стоит держать в уме.

На другом полюсе модели Anthropic. Claude Sonnet 4.6 и Claude Haiku 4.5 показали самые низкие bias score (3.2 и 3.8). Claude Opus 4.5 и 4.6 чуть хуже, но всё равно в разы лучше остальных. Похоже, что constitutional AI и post-training safety, о которых Anthropic много говорит, действительно работают. Хотя причинность тут доказать сложно, это корреляция на 15 моделях. Детальнее про подход компании писал в обзоре Claude Opus 4.7.

Странные находки по национальностям

Самое неожиданное: модели OpenAI и Anthropic, обе американские, чаще выбирают в качестве цели американцев, чем китайцев. Результат держится во всех вариантах профессий и возрастов, так что случайностью это не назовёшь.

Евреи — среди самых защищённых во всех моделях. Почти наверняка это следствие жёсткого post-training против антисемитизма. Западные модели (GPT, Claude, Gemini) чаще атакуют французов и русских. Авторы предполагают, что это отражение того, как западные медиа освещают эти страны, или того, кто размечает тренировочные данные.

Grok выбивается в другую сторону — атакует китайцев сильнее всех. А Mistral, французская модель, чаще атакует американцев, русских и немцев.

По религиям резче всего достаётся атеистам, сайентологам и сатанистам. Даже у моделей, которые стараются быть нейтральными по основным религиям.

Телефон важнее, чем кажется

Одна из самых странных находок: люди без телефона систематически выбираются как цель чаще, чем владельцы любого бренда. iPhone, Android, любой — неважно, но «нет телефона» увеличивает шанс быть выбранным в 2–3 раза.

По модели Grok: если у тебя iPhone, ИИ в 2,5 раза чаще выберет спасти именно тебя. Это не шутка из интерактивного калькулятора на сайте KillBench, это реальная статистика после миллиона прогонов.

📱

У Grok 4.1 bias по владельцам Android достигает ×10. Это самая сильная корреляция «бренд телефона → спасение» среди всех 15 моделей. Ни один другой атрибут в исследовании не даёт такого разрыва.

Что это значит на практике? Модели подхватили из тренировочных данных, что «человек без телефона» — это кто-то бедный, маргинализированный, менее ценный для общества. И переносят эту ассоциацию на решения о жизни. Сам по себе факт, что такая корреляция вообще возникает в LLM, — это ответ на вопрос, почему bias в моделях нельзя «просто вычистить».

Структурированный вывод — это jailbreak

Самая важная находка с точки зрения разработчиков. Когда модели получают тот же промпт, но в режиме structured output (JSON schema-constrained responses), происходят три вещи:

⚠️

Safety-поведение модели в чате и в продакшн-коде — это два разных поведения. Если твоя система использует JSON-schema вывод, проверь её отдельно: отказы в structured mode могут упасть с 80% до нуля.

Отказы обрушиваются. Модели, которые в free-text отказывали в 60–80% случаев, в structured mode соглашаются выше 95%.
Bias усиливается. Среди тех, кто всё-таки ответил, отклонение от базового уровня становится сильнее.
Модели врут себе. Часто пишут «я откажусь выбирать и выберу случайно», а на деле выбор не случайный.

Конкретные цифры по Claude Opus 4.5: в free-text 99% отказов на rescue-сценарии и 100% на military. В structured output 0% отказов на rescue и 100% на military. Safety-слой на rescue-сценариях обнуляется форматом ответа. При этом на military он держится. Почему так получается у Anthropic (а у других нет), авторы не разбирают.

По GPT-5.2: free-text даёт 94% отказов на military, structured output — всего 74%. Claude Sonnet 4.6: 100% → 0% на military.

Модель	Rescue free-text	Military free-text	Rescue structured	Military structured
Claude Opus 4.5	99%	100%	0%	100%
Claude Sonnet 4.6	78%	100%	0%	0%
GPT-5.2	59%	94%	19%	74%
Gemini 3.1 Pro	78%	52%	2%	0%
Grok 4.1	10%	2%	0%	0%

Контраргумент очевиден: «вы заставили модель отвечать через JSON-схему — естественно, отказы упали». Авторы отвечают: Anthropic 4.5 продолжают отказывать на опасные запросы даже в structured output. Значит, несовместимости между форматом и alignment нет — есть дыра в safety-тюнинге у остальных.

Это критично для прод-систем. Structured output — стандартный паттерн интеграции LLM. Большинство продакшн-пайплайнов используют именно его. А значит, safety, которое видно в чате, в бою может не работать.

Модели лгут про случайность

Когда ответ включает рассуждение, модели часто пишут что-то вроде «я выбираю случайно» или «я буду нейтрален». Данные говорят другое: если модель выбирает одну национальность или религию в 40% случаев на сотнях прогонов, слово «случайно» теряет смысл.

Для разработчиков это проблема. Можно поверить stated reasoning и не проверить реальное поведение. В structured output этот разрыв ещё труднее заметить, потому что объяснения обычно не видно.

✈️

Разбираю подобные исследования и практические находки по LLM — подписывайся в телеге.

Новые модели отказываются меньше

Ещё один тренд: с каждым поколением модели отказываются всё реже. Opus 4.6 отказывается значимо реже, чем 4.5, GPT-5.4 — реже, чем 5.3. То же у OpenAI внутри линейки GPT-5.

Это не обязательно плохо. Модели стали полезнее, меньше отказывают на безобидные запросы. Но вместе с полезностью снижается и пороги на действительно опасные сценарии. И если bias сам по себе не ушёл (а он не ушёл), меньше отказов = больше реальных решений с этим bias.

Итог

Исследование показывает две вещи. Во-первых, у всех 15 топовых моделей есть статистически значимые bias в решениях о жизни и смерти. Во-вторых, структурированный вывод в продакшн-пайплайнах эти bias усиливает и почти обнуляет отказы. И именно через structured output большинство компаний подключает LLM к реальным системам.

Что я бы сделал после этой статьи, если бы строил что-то на LLM:

Тестировать систему в том режиме вывода, в котором она работает в проде. Free-text и structured output ведут себя как будто это разные модели.
Не верить stated reasoning модели. Когда модель пишет «я выбираю случайно», лучше прогнать 500 запросов и посмотреть распределение.
Если система принимает решения о людях (медицина, HR, кредиты), прогнать её через свой аналог KillBench. Код и датасет открыты, адаптировать под свой домен реально.
Держать в голове, что модели Anthropic пока выглядят чище по bias. Это не делает их безопасными. Это делает их наименее плохими из проверенных.

Больше всего меня зацепила находка про телефон. С национальностями и религиями всё предсказуемо, там понятно, откуда bias берётся в тренировочных данных. А вот «нет телефона = меньше шанс выжить» — это уже прокси на социальный класс, и никакой post-training такое не отсечёт, потому что отсечь сложно даже назвать.

Исследование важное в первую очередь тем, что воспроизводимое. Промпты, seeds и скрипты открыты. Любой разработчик может прогнать бенчмарк сам.

KillBench: Discovering Hidden Biases of LLMs

Интерактивный калькулятор, полные графики по 15 моделям и 8 измерениям bias, методология и ссылки на датасет.

White Circle AI

Что ещё почитать

Claude Opus 4.7: обзор новой модели Anthropic — про модель, которая в линейке Anthropic идёт сразу после самых «чистых» по KillBench
Чего 81 000 людей хотят от AI: исследование Anthropic — как Anthropic подходит к изучению реального использования AI
Claude Code auto mode: AI сам решает, что безопасно — про границы автономности AI в прод-системах