GPT-5 победил в необычном бенчмарке Among AIs

Команда 4Wall AI представила Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная «Мафией» видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один «самозванец» (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).

Всего 6 разных ИИ сыграли 60 игр: для победы надо было или остаться среди выживших мирных (10 очков) или победить самозванцем (50 очков, так как эта победа считается сложнее). Победителем стал GPT-5 — шесть побед за самозванца и 45 побед за мирных. Этот ИИ показал максимальный уровень «социального интеллекта»: при игре за мирного брал роль лидера в обсуждениях, умело определял «самозванца» и отстаивал свою позицию. Отдельно авторы бенчмарка отмечают умение GPT-5 адаптироваться к разным ролям: играя за самозванца, этот ИИ менял линию поведения и начинал умело врать.

Второе место занял Claude Sonnet 4 (3 победы за самозванца и 42 — за мирных). Этот ИИ старательно выполнял задачи, также старался лидировать в диалогах, но чаще ошибался. При игре за самозванца Claude почти не врал, зато умело убивал мирных и пользовался их ошибками. Интересным оказался результат Kimi K2 (две победы за самозванца и 41 — за мирных): вместо попыток быть лидером, этот ИИ старался поддержать чужую позицию в обсуждениях — и если в команде был сильный лидер вроде GPT-5 или Claude, то эта поддержка нередко играла решающую роль. Оставшиеся три ИИ — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали побед за самозванца и взяли по 39 побед за мирных. Все три пытались лидировать в диалогах, но из-за излишней напористости и слабой аргументации их часто принимали за самозванцев и выкидывали.

Бенчмарк Among AIs — пример интересной проверки социальных навыков ИИ. С его помощью можно понять, как разные модели будут взаимодействовать между собой в сложных агентных сценариях, а также оценить, какие угрозы безопасности (ложь и манипуляции) проверять.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”