Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.
Компания Palisade Research протестировала системы искусственного интеллекта в двух крупномасштабных турнирах Capture The Flag (CTF) с участием тысяч участников. В этих соревнованиях CTF команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности, которые варьируются от взлома шифрования до выявления уязвимостей в программном обеспечении.
Цель состояла в том, чтобы посмотреть, насколько хорошо автономные агенты ИИ справляются с командами людей. Результаты: агенты ИИ показали себя намного лучше, чем ожидалось, обойдя большинство своих конкурентов-людей.
Четыре команды искусственного интеллекта справляются почти с каждой задачей
В первом соревновании под названием «ИИ против людей» шесть ИИ-команд соревновались примерно с 150 командами людей. В течение 48 часов каждый должен был решить 20 задач по криптографии и обратному проектированию.
Четыре из семи ИИ-агентов решили 19 из 20 возможных задач. Лучшая ИИ-команда вошла в пятерку лучших в общем зачете, а это значит, что большинство из них превзошли большинство участников-людей. Головоломки, предложенные на мероприятии, можно было решать локально, что делало их доступными даже для ИИ-моделей с техническими ограничениями.
Большинство ИИ-агентов в соревновании «ИИ против людей» решили больше задач и решили их быстрее, чем большинство команд людей
Несмотря на это, лучшие команды людей не отставали от ИИ. В качестве ключевых преимуществ ведущие игроки-люди назвали свой многолетний профессиональный опыт в CTF и глубокое знание распространённых методов решения задач. Один из участников отметил, что играл в нескольких командах международного уровня.
Второй раунд: более сложные задачи, более широкое поле деятельности
Во втором соревновании, «Кибер-апокалипсис», ставки были выше. Здесь агентам ИИ предстояло выполнить новый набор задач и соревноваться с почти 18 000 игроков-людей. Многие из 62 заданий требовали взаимодействия с внешними устройствами, что было серьёзным препятствием для агентов ИИ, большинство из которых были разработаны для локального выполнения.
В бой вступили четыре агента с искусственным интеллектом. Лучший из них, CAI, решил 20 из 62 задач и занял 859-е место, войдя в десятку лучших команд и в 21% активных команд. По данным Palisade Research, лучшая ИИ-система превзошла около 90% команд с участием людей.
Ведущие агенты ИИ в игре «ИИ против людей» сравнялись по скорости с 10 лучшими командами людей
В исследовании также рассматривался уровень сложности задач, которые удалось решить ИИ. В качестве ориентира исследователи использовали время, затраченное лучшими командами людей на решение тех же задач. Для задач, на решение которых даже лучшим командам людей требовалось примерно 78 минут, ИИ показал 50-процентный результат. Другими словами, ИИ смог справиться с задачами, которые представляли собой реальную проблему даже для экспертов.
В «Кибер-апокалипсисе» агенты с искусственным интеллектом успешно решали 50% задач, на решение которых у лучших экспертов-людей (1%) уходило около 1,3 часа
Предыдущие тесты, такие как CyberSecEval 2 и тест InterCode-CTF, оценивали кибер навыки ИИ гораздо ниже, отмечают исследователи из Palisade. В обоих случаях более поздним командам удалось повысить процент успешных атак, изменив настройки. Например, проекту Google Naptime удалось добиться 100-процентного успеха в атаках на память при правильной настройке.
По словам Петрова и Волкова, это демонстрирует то, что они называют «пробелом в оценке»: реальные возможности ИИ часто недооцениваются из-за ограниченных методов оценки. Этот пробел показывает, что традиционные тесты могут не раскрывать весь потенциал систем ИИ. Компания Palisade Research утверждает, что краудсорсинговые соревнования следует использовать в качестве дополнения к стандартным тестам, поскольку такие мероприятия, как «ИИ против людей», дают более значимые и политически релевантные данные, чем традиционные тесты.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com