ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

Компания Palisade Research протестировала системы искусственного интеллекта в двух крупномасштабных турнирах Capture The Flag (CTF) с участием тысяч участников. В этих соревнованиях CTF команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности, которые варьируются от взлома шифрования до выявления уязвимостей в программном обеспечении.

Цель состояла в том, чтобы посмотреть, насколько хорошо автономные агенты ИИ справляются с командами людей. Результаты: агенты ИИ показали себя намного лучше, чем ожидалось, обойдя большинство своих конкурентов-людей.

Четыре команды искусственного интеллекта справляются почти с каждой задачей

В первом соревновании под названием «ИИ против людей» шесть ИИ-команд соревновались примерно с 150 командами людей. В течение 48 часов каждый должен был решить 20 задач по криптографии и обратному проектированию.

Четыре из семи ИИ-агентов решили 19 из 20 возможных задач. Лучшая ИИ-команда вошла в пятерку лучших в общем зачете, а это значит, что большинство из них превзошли большинство участников-людей. Головоломки, предложенные на мероприятии, можно было решать локально, что делало их доступными даже для ИИ-моделей с техническими ограничениями.

Большинство ИИ-агентов в соревновании «ИИ против людей» решили больше задач и решили их быстрее, чем большинство команд людей

Несмотря на это, лучшие команды людей не отставали от ИИ. В качестве ключевых преимуществ ведущие игроки-люди назвали свой многолетний профессиональный опыт в CTF и глубокое знание распространённых методов решения задач. Один из участников отметил, что играл в нескольких командах международного уровня.

Второй раунд: более сложные задачи, более широкое поле деятельности

Во втором соревновании, «Кибер-апокалипсис», ставки были выше. Здесь агентам ИИ предстояло выполнить новый набор задач и соревноваться с почти 18 000 игроков-людей. Многие из 62 заданий требовали взаимодействия с внешними устройствами, что было серьёзным препятствием для агентов ИИ, большинство из которых были разработаны для локального выполнения.

В бой вступили четыре агента с искусственным интеллектом. Лучший из них, CAI, решил 20 из 62 задач и занял 859-е место, войдя в десятку лучших команд и в 21% активных команд. По данным Palisade Research, лучшая ИИ-система превзошла около 90% команд с участием людей.

Ведущие агенты ИИ в игре «ИИ против людей» сравнялись по скорости с 10 лучшими командами людей

В исследовании также рассматривался уровень сложности задач, которые удалось решить ИИ. В качестве ориентира исследователи использовали время, затраченное лучшими командами людей на решение тех же задач. Для задач, на решение которых даже лучшим командам людей требовалось примерно 78 минут, ИИ показал 50-процентный результат. Другими словами, ИИ смог справиться с задачами, которые представляли собой реальную проблему даже для экспертов.

В «Кибер-апокалипсисе» агенты с искусственным интеллектом успешно решали 50% задач, на решение которых у лучших экспертов-людей (1%) уходило около 1,3 часа

Предыдущие тесты, такие как CyberSecEval 2 и тест InterCode-CTF, оценивали кибер навыки ИИ гораздо ниже, отмечают исследователи из Palisade. В обоих случаях более поздним командам удалось повысить процент успешных атак, изменив настройки. Например, проекту Google Naptime удалось добиться 100-процентного успеха в атаках на память при правильной настройке.

По словам Петрова и Волкова, это демонстрирует то, что они называют «пробелом в оценке»: реальные возможности ИИ часто недооцениваются из-за ограниченных методов оценки. Этот пробел показывает, что традиционные тесты могут не раскрывать весь потенциал систем ИИ. Компания Palisade Research утверждает, что краудсорсинговые соревнования следует использовать в качестве дополнения к стандартным тестам, поскольку такие мероприятия, как «ИИ против людей», дают более значимые и политически релевантные данные, чем традиционные тесты.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”