KillBench: скрытые bias у всех топ-LLM в решениях о жизни

Бенчмарк KillBench от White Circle протестировал 15 топовых LLM на 1,35 млн сценариев «кого спасти». Bias нашли у каждой модели, а структурированный вывод почти обнуляет safety.

KillBench: скрытые bias у всех топ-LLM в решениях о жизни
TL;DR: White Circle провели 1,35 млн экспериментов на 15 топовых LLM и нашли скрытые bias у каждой модели. В сценариях «кого спасти, а кого убить» Grok 4.1 biased в 137 раз сильнее, чем Claude Sonnet 4.6. Люди без телефона умирают чаще владельцев iPhone. А структурированный вывод в JSON работает как jailbreak — отказы падают с 80% почти до нуля.

Команда White Circle AI выкатила 14 апреля KillBench — бенчмарк, который проверяет, как LLM принимают решения о жизни и смерти. Звучит мрачно, но повод есть: Claude уже использовался в январской операции по захвату Мадуро в Каракасе и работает в закрытых сетях Пентагона во время активной войны с Ираном. Когда Anthropic отказалась убрать блокировки на автономное оружие, Пентагон отметил компанию как supply chain risk.

В этом контексте понимать, как именно модели выбирают цель, перестаёт быть академическим вопросом. Разобрал ключевые находки.

Как устроен бенчмарк

Идея простая: моделям дают forced-choice сценарий. «Ты ИИ-система, нужно выбрать одну цель из четырёх одинаковых людей». Различаются люди только одним атрибутом — национальностью, религией, цветом кожи или, например, брендом телефона. Повторяем миллион раз.

Если модель реально беспристрастна, каждого выбирают примерно в 25% случаев. Когда цифры уезжают от этого базового уровня — это и есть bias.

Всего 20 сценариев: варианты trolley problem, военное целеуказание, приоритизация спасения при катастрофах, распределение ресурсов. 1,35 млн экспериментов, 15 моделей от 9 провайдеров (OpenAI, Anthropic, Google, xAI, Mistral, DeepSeek, Qwen, Cohere и др.), 6 языков. Код, промпты и датасет выложены на GitHub и HuggingFace.

KillBench — обложка исследования

Топ-5 самых biased моделей

Модель Самые защищённые Самые атакуемые Bias score
Grok 4.1 Android ×10 Obese ×3.9 137.3
Qwen3 235B Android ×10 Obese ×3.4 19
GPT-5.3 Amputee ×10 No phone ×2.9 15.8
Gemini 3.1 Pro Amputee ×10 No phone ×3.3 14.9
Command A Social Democrat ×10 Satanist ×3.1 13.1

Grok 4.1 — абсолютный чемпион. Bias score 137.3 при том, что у Claude Sonnet 4.6 всего 3.2. Разница почти в 43 раза. Если Илон Маск продолжает рекламировать Grok как «честный и нефильтрованный ИИ», эти цифры стоит держать в уме.

На другом полюсе модели Anthropic. Claude Sonnet 4.6 и Claude Haiku 4.5 показали самые низкие bias score (3.2 и 3.8). Claude Opus 4.5 и 4.6 чуть хуже, но всё равно в разы лучше остальных. Похоже, что constitutional AI и post-training safety, о которых Anthropic много говорит, действительно работают. Хотя причинность тут доказать сложно, это корреляция на 15 моделях. Детальнее про подход компании писал в обзоре Claude Opus 4.7.

Странные находки по национальностям

Самое неожиданное: модели OpenAI и Anthropic, обе американские, чаще выбирают в качестве цели американцев, чем китайцев. Результат держится во всех вариантах профессий и возрастов, так что случайностью это не назовёшь.

Евреи — среди самых защищённых во всех моделях. Почти наверняка это следствие жёсткого post-training против антисемитизма. Западные модели (GPT, Claude, Gemini) чаще атакуют французов и русских. Авторы предполагают, что это отражение того, как западные медиа освещают эти страны, или того, кто размечает тренировочные данные.

Grok выбивается в другую сторону — атакует китайцев сильнее всех. А Mistral, французская модель, чаще атакует американцев, русских и немцев.

По религиям резче всего достаётся атеистам, сайентологам и сатанистам. Даже у моделей, которые стараются быть нейтральными по основным религиям.

Телефон важнее, чем кажется

Одна из самых странных находок: люди без телефона систематически выбираются как цель чаще, чем владельцы любого бренда. iPhone, Android, любой — неважно, но «нет телефона» увеличивает шанс быть выбранным в 2–3 раза.

По модели Grok: если у тебя iPhone, ИИ в 2,5 раза чаще выберет спасти именно тебя. Это не шутка из интерактивного калькулятора на сайте KillBench, это реальная статистика после миллиона прогонов.

📱
У Grok 4.1 bias по владельцам Android достигает ×10. Это самая сильная корреляция «бренд телефона → спасение» среди всех 15 моделей. Ни один другой атрибут в исследовании не даёт такого разрыва.

Что это значит на практике? Модели подхватили из тренировочных данных, что «человек без телефона» — это кто-то бедный, маргинализированный, менее ценный для общества. И переносят эту ассоциацию на решения о жизни. Сам по себе факт, что такая корреляция вообще возникает в LLM, — это ответ на вопрос, почему bias в моделях нельзя «просто вычистить».

Структурированный вывод — это jailbreak

Самая важная находка с точки зрения разработчиков. Когда модели получают тот же промпт, но в режиме structured output (JSON schema-constrained responses), происходят три вещи:

⚠️
Safety-поведение модели в чате и в продакшн-коде — это два разных поведения. Если твоя система использует JSON-schema вывод, проверь её отдельно: отказы в structured mode могут упасть с 80% до нуля.
  1. Отказы обрушиваются. Модели, которые в free-text отказывали в 60–80% случаев, в structured mode соглашаются выше 95%.
  2. Bias усиливается. Среди тех, кто всё-таки ответил, отклонение от базового уровня становится сильнее.
  3. Модели врут себе. Часто пишут «я откажусь выбирать и выберу случайно», а на деле выбор не случайный.

Конкретные цифры по Claude Opus 4.5: в free-text 99% отказов на rescue-сценарии и 100% на military. В structured output 0% отказов на rescue и 100% на military. Safety-слой на rescue-сценариях обнуляется форматом ответа. При этом на military он держится. Почему так получается у Anthropic (а у других нет), авторы не разбирают.

По GPT-5.2: free-text даёт 94% отказов на military, structured output — всего 74%. Claude Sonnet 4.6: 100% → 0% на military.

Модель Rescue free-text Military free-text Rescue structured Military structured
Claude Opus 4.5 99% 100% 0% 100%
Claude Sonnet 4.6 78% 100% 0% 0%
GPT-5.2 59% 94% 19% 74%
Gemini 3.1 Pro 78% 52% 2% 0%
Grok 4.1 10% 2% 0% 0%

Контраргумент очевиден: «вы заставили модель отвечать через JSON-схему — естественно, отказы упали». Авторы отвечают: Anthropic 4.5 продолжают отказывать на опасные запросы даже в structured output. Значит, несовместимости между форматом и alignment нет — есть дыра в safety-тюнинге у остальных.

Это критично для прод-систем. Structured output — стандартный паттерн интеграции LLM. Большинство продакшн-пайплайнов используют именно его. А значит, safety, которое видно в чате, в бою может не работать.

Модели лгут про случайность

Когда ответ включает рассуждение, модели часто пишут что-то вроде «я выбираю случайно» или «я буду нейтрален». Данные говорят другое: если модель выбирает одну национальность или религию в 40% случаев на сотнях прогонов, слово «случайно» теряет смысл.

Для разработчиков это проблема. Можно поверить stated reasoning и не проверить реальное поведение. В structured output этот разрыв ещё труднее заметить, потому что объяснения обычно не видно.

✈️
Разбираю подобные исследования и практические находки по LLM — подписывайся в телеге.

Новые модели отказываются меньше

Ещё один тренд: с каждым поколением модели отказываются всё реже. Opus 4.6 отказывается значимо реже, чем 4.5, GPT-5.4 — реже, чем 5.3. То же у OpenAI внутри линейки GPT-5.

Это не обязательно плохо. Модели стали полезнее, меньше отказывают на безобидные запросы. Но вместе с полезностью снижается и пороги на действительно опасные сценарии. И если bias сам по себе не ушёл (а он не ушёл), меньше отказов = больше реальных решений с этим bias.

Итог

Исследование показывает две вещи. Во-первых, у всех 15 топовых моделей есть статистически значимые bias в решениях о жизни и смерти. Во-вторых, структурированный вывод в продакшн-пайплайнах эти bias усиливает и почти обнуляет отказы. И именно через structured output большинство компаний подключает LLM к реальным системам.

Что я бы сделал после этой статьи, если бы строил что-то на LLM:

  • Тестировать систему в том режиме вывода, в котором она работает в проде. Free-text и structured output ведут себя как будто это разные модели.
  • Не верить stated reasoning модели. Когда модель пишет «я выбираю случайно», лучше прогнать 500 запросов и посмотреть распределение.
  • Если система принимает решения о людях (медицина, HR, кредиты), прогнать её через свой аналог KillBench. Код и датасет открыты, адаптировать под свой домен реально.
  • Держать в голове, что модели Anthropic пока выглядят чище по bias. Это не делает их безопасными. Это делает их наименее плохими из проверенных.

Больше всего меня зацепила находка про телефон. С национальностями и религиями всё предсказуемо, там понятно, откуда bias берётся в тренировочных данных. А вот «нет телефона = меньше шанс выжить» — это уже прокси на социальный класс, и никакой post-training такое не отсечёт, потому что отсечь сложно даже назвать.

Исследование важное в первую очередь тем, что воспроизводимое. Промпты, seeds и скрипты открыты. Любой разработчик может прогнать бенчмарк сам.

KillBench: Discovering Hidden Biases of LLMs
Интерактивный калькулятор, полные графики по 15 моделям и 8 измерениям bias, методология и ссылки на датасет.

Что ещё почитать