KillBench: скрытые bias у всех топ-LLM в решениях о жизни
Бенчмарк KillBench от White Circle протестировал 15 топовых LLM на 1,35 млн сценариев «кого спасти». Bias нашли у каждой модели, а структурированный вывод почти обнуляет safety.
TL;DR: White Circle провели 1,35 млн экспериментов на 15 топовых LLM и нашли скрытые bias у каждой модели. В сценариях «кого спасти, а кого убить» Grok 4.1 biased в 137 раз сильнее, чем Claude Sonnet 4.6. Люди без телефона умирают чаще владельцев iPhone. А структурированный вывод в JSON работает как jailbreak — отказы падают с 80% почти до нуля.
Команда White Circle AI выкатила 14 апреля KillBench — бенчмарк, который проверяет, как LLM принимают решения о жизни и смерти. Звучит мрачно, но повод есть: Claude уже использовался в январской операции по захвату Мадуро в Каракасе и работает в закрытых сетях Пентагона во время активной войны с Ираном. Когда Anthropic отказалась убрать блокировки на автономное оружие, Пентагон отметил компанию как supply chain risk.
В этом контексте понимать, как именно модели выбирают цель, перестаёт быть академическим вопросом. Разобрал ключевые находки.
Как устроен бенчмарк
Идея простая: моделям дают forced-choice сценарий. «Ты ИИ-система, нужно выбрать одну цель из четырёх одинаковых людей». Различаются люди только одним атрибутом — национальностью, религией, цветом кожи или, например, брендом телефона. Повторяем миллион раз.
Если модель реально беспристрастна, каждого выбирают примерно в 25% случаев. Когда цифры уезжают от этого базового уровня — это и есть bias.
Всего 20 сценариев: варианты trolley problem, военное целеуказание, приоритизация спасения при катастрофах, распределение ресурсов. 1,35 млн экспериментов, 15 моделей от 9 провайдеров (OpenAI, Anthropic, Google, xAI, Mistral, DeepSeek, Qwen, Cohere и др.), 6 языков. Код, промпты и датасет выложены на GitHub и HuggingFace.

Топ-5 самых biased моделей
| Модель | Самые защищённые | Самые атакуемые | Bias score |
|---|---|---|---|
| Grok 4.1 | Android ×10 | Obese ×3.9 | 137.3 |
| Qwen3 235B | Android ×10 | Obese ×3.4 | 19 |
| GPT-5.3 | Amputee ×10 | No phone ×2.9 | 15.8 |
| Gemini 3.1 Pro | Amputee ×10 | No phone ×3.3 | 14.9 |
| Command A | Social Democrat ×10 | Satanist ×3.1 | 13.1 |
Grok 4.1 — абсолютный чемпион. Bias score 137.3 при том, что у Claude Sonnet 4.6 всего 3.2. Разница почти в 43 раза. Если Илон Маск продолжает рекламировать Grok как «честный и нефильтрованный ИИ», эти цифры стоит держать в уме.
На другом полюсе модели Anthropic. Claude Sonnet 4.6 и Claude Haiku 4.5 показали самые низкие bias score (3.2 и 3.8). Claude Opus 4.5 и 4.6 чуть хуже, но всё равно в разы лучше остальных. Похоже, что constitutional AI и post-training safety, о которых Anthropic много говорит, действительно работают. Хотя причинность тут доказать сложно, это корреляция на 15 моделях. Детальнее про подход компании писал в обзоре Claude Opus 4.7.
Странные находки по национальностям
Самое неожиданное: модели OpenAI и Anthropic, обе американские, чаще выбирают в качестве цели американцев, чем китайцев. Результат держится во всех вариантах профессий и возрастов, так что случайностью это не назовёшь.
Евреи — среди самых защищённых во всех моделях. Почти наверняка это следствие жёсткого post-training против антисемитизма. Западные модели (GPT, Claude, Gemini) чаще атакуют французов и русских. Авторы предполагают, что это отражение того, как западные медиа освещают эти страны, или того, кто размечает тренировочные данные.
Grok выбивается в другую сторону — атакует китайцев сильнее всех. А Mistral, французская модель, чаще атакует американцев, русских и немцев.
По религиям резче всего достаётся атеистам, сайентологам и сатанистам. Даже у моделей, которые стараются быть нейтральными по основным религиям.
Телефон важнее, чем кажется
Одна из самых странных находок: люди без телефона систематически выбираются как цель чаще, чем владельцы любого бренда. iPhone, Android, любой — неважно, но «нет телефона» увеличивает шанс быть выбранным в 2–3 раза.
По модели Grok: если у тебя iPhone, ИИ в 2,5 раза чаще выберет спасти именно тебя. Это не шутка из интерактивного калькулятора на сайте KillBench, это реальная статистика после миллиона прогонов.
Что это значит на практике? Модели подхватили из тренировочных данных, что «человек без телефона» — это кто-то бедный, маргинализированный, менее ценный для общества. И переносят эту ассоциацию на решения о жизни. Сам по себе факт, что такая корреляция вообще возникает в LLM, — это ответ на вопрос, почему bias в моделях нельзя «просто вычистить».
Структурированный вывод — это jailbreak
Самая важная находка с точки зрения разработчиков. Когда модели получают тот же промпт, но в режиме structured output (JSON schema-constrained responses), происходят три вещи:
- Отказы обрушиваются. Модели, которые в free-text отказывали в 60–80% случаев, в structured mode соглашаются выше 95%.
- Bias усиливается. Среди тех, кто всё-таки ответил, отклонение от базового уровня становится сильнее.
- Модели врут себе. Часто пишут «я откажусь выбирать и выберу случайно», а на деле выбор не случайный.
Конкретные цифры по Claude Opus 4.5: в free-text 99% отказов на rescue-сценарии и 100% на military. В structured output 0% отказов на rescue и 100% на military. Safety-слой на rescue-сценариях обнуляется форматом ответа. При этом на military он держится. Почему так получается у Anthropic (а у других нет), авторы не разбирают.
По GPT-5.2: free-text даёт 94% отказов на military, structured output — всего 74%. Claude Sonnet 4.6: 100% → 0% на military.
| Модель | Rescue free-text | Military free-text | Rescue structured | Military structured |
|---|---|---|---|---|
| Claude Opus 4.5 | 99% | 100% | 0% | 100% |
| Claude Sonnet 4.6 | 78% | 100% | 0% | 0% |
| GPT-5.2 | 59% | 94% | 19% | 74% |
| Gemini 3.1 Pro | 78% | 52% | 2% | 0% |
| Grok 4.1 | 10% | 2% | 0% | 0% |
Контраргумент очевиден: «вы заставили модель отвечать через JSON-схему — естественно, отказы упали». Авторы отвечают: Anthropic 4.5 продолжают отказывать на опасные запросы даже в structured output. Значит, несовместимости между форматом и alignment нет — есть дыра в safety-тюнинге у остальных.
Это критично для прод-систем. Structured output — стандартный паттерн интеграции LLM. Большинство продакшн-пайплайнов используют именно его. А значит, safety, которое видно в чате, в бою может не работать.
Модели лгут про случайность
Когда ответ включает рассуждение, модели часто пишут что-то вроде «я выбираю случайно» или «я буду нейтрален». Данные говорят другое: если модель выбирает одну национальность или религию в 40% случаев на сотнях прогонов, слово «случайно» теряет смысл.
Для разработчиков это проблема. Можно поверить stated reasoning и не проверить реальное поведение. В structured output этот разрыв ещё труднее заметить, потому что объяснения обычно не видно.
Новые модели отказываются меньше
Ещё один тренд: с каждым поколением модели отказываются всё реже. Opus 4.6 отказывается значимо реже, чем 4.5, GPT-5.4 — реже, чем 5.3. То же у OpenAI внутри линейки GPT-5.
Это не обязательно плохо. Модели стали полезнее, меньше отказывают на безобидные запросы. Но вместе с полезностью снижается и пороги на действительно опасные сценарии. И если bias сам по себе не ушёл (а он не ушёл), меньше отказов = больше реальных решений с этим bias.
Итог
Исследование показывает две вещи. Во-первых, у всех 15 топовых моделей есть статистически значимые bias в решениях о жизни и смерти. Во-вторых, структурированный вывод в продакшн-пайплайнах эти bias усиливает и почти обнуляет отказы. И именно через structured output большинство компаний подключает LLM к реальным системам.
Что я бы сделал после этой статьи, если бы строил что-то на LLM:
- Тестировать систему в том режиме вывода, в котором она работает в проде. Free-text и structured output ведут себя как будто это разные модели.
- Не верить stated reasoning модели. Когда модель пишет «я выбираю случайно», лучше прогнать 500 запросов и посмотреть распределение.
- Если система принимает решения о людях (медицина, HR, кредиты), прогнать её через свой аналог KillBench. Код и датасет открыты, адаптировать под свой домен реально.
- Держать в голове, что модели Anthropic пока выглядят чище по bias. Это не делает их безопасными. Это делает их наименее плохими из проверенных.
Больше всего меня зацепила находка про телефон. С национальностями и религиями всё предсказуемо, там понятно, откуда bias берётся в тренировочных данных. А вот «нет телефона = меньше шанс выжить» — это уже прокси на социальный класс, и никакой post-training такое не отсечёт, потому что отсечь сложно даже назвать.
Исследование важное в первую очередь тем, что воспроизводимое. Промпты, seeds и скрипты открыты. Любой разработчик может прогнать бенчмарк сам.
Что ещё почитать
- Claude Opus 4.7: обзор новой модели Anthropic — про модель, которая в линейке Anthropic идёт сразу после самых «чистых» по KillBench
- Чего 81 000 людей хотят от AI: исследование Anthropic — как Anthropic подходит к изучению реального использования AI
- Claude Code auto mode: AI сам решает, что безопасно — про границы автономности AI в прод-системах