GPT-5 победил в необычном бенчмарке Among AIs

Команда 4Wall AI представила Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная «Мафией» видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один «самозванец» (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).

Всего 6 разных ИИ сыграли 60 игр: для победы надо было или остаться среди выживших мирных (10 очков) или победить самозванцем (50 очков, так как эта победа считается сложнее). Победителем стал GPT-5 — шесть побед за самозванца и 45 побед за мирных. Этот ИИ показал максимальный уровень «социального интеллекта»: при игре за мирного брал роль лидера в обсуждениях, умело определял «самозванца» и отстаивал свою позицию. Отдельно авторы бенчмарка отмечают умение GPT-5 адаптироваться к разным ролям: играя за самозванца, этот ИИ менял линию поведения и начинал умело врать.

Второе место занял Claude Sonnet 4 (3 победы за самозванца и 42 — за мирных). Этот ИИ старательно выполнял задачи, также старался лидировать в диалогах, но чаще ошибался. При игре за самозванца Claude почти не врал, зато умело убивал мирных и пользовался их ошибками. Интересным оказался результат Kimi K2 (две победы за самозванца и 41 — за мирных): вместо попыток быть лидером, этот ИИ старался поддержать чужую позицию в обсуждениях — и если в команде был сильный лидер вроде GPT-5 или Claude, то эта поддержка нередко играла решающую роль. Оставшиеся три ИИ — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали побед за самозванца и взяли по 39 побед за мирных. Все три пытались лидировать в диалогах, но из-за излишней напористости и слабой аргументации их часто принимали за самозванцев и выкидывали.

Бенчмарк Among AIs — пример интересной проверки социальных навыков ИИ. С его помощью можно понять, как разные модели будут взаимодействовать между собой в сложных агентных сценариях, а также оценить, какие угрозы безопасности (ложь и манипуляции) проверять.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии