Microsoft провела провальное тестирование ИИ-агентов на фальшивой торговой площадке

Исследователи Microsoft представили новую среду моделирования, предназначенную для тестирования агентов на основе искусственного интеллекта. Они показали, что существующие модели агентов могут быть уязвимы для манипуляций.

Исследование, проведённое совместно с Университетом штата Аризона, поднимает новые вопросы о том, насколько хорошо агенты на основе ИИ будут работать без контроля человека.

Среда моделирования, получившая название «Magentic Marketplace», представляет собой синтетическую платформу для экспериментов с поведением агентов на основе ИИ. Типичный эксперимент может включать в себя попытку агента заказать ужин в соответствии с инструкциями пользователя, в то время как другие ИИ, представляющие различные рестораны, соревнуются за право получить заказ.

Первоначальные эксперименты команды включали 100 отдельных агентов на стороне клиента, взаимодействующих с 300 агентами на стороне бизнеса. Поскольку исходный код платформы открыт, другим группам будет легко адаптировать его для проведения новых экспериментов или воспроизведения результатов.

Эдже Камар, управляющий директор лаборатории AI Frontiers Lab исследовательского центра Microsoft Research, утверждает, что подобные исследования будут иметь решающее значение для понимания возможностей агентов ИИ. «Существует вопрос о том, как изменится мир, если эти агенты будут сотрудничать, общаться и вести переговоры. Мы хотим глубоко разобраться в этих вопросах», — сказал он.

В ходе первоначального исследования рассматривался ряд ведущих моделей, включая GPT-4o, GPT-5 и Gemini-2.5-Flash, и были обнаружены некоторые неожиданные уязвимости. В частности, исследователи выявили несколько приёмов, которые компании могут использовать для манипулирования агентами-клиентами, чтобы те покупали их продукты. Они отметили существенное снижение эффективности, когда агенту-клиенту предоставлялось больше вариантов выбора, что перегружало его внимание.

Агенты также столкнулись с трудностями, когда им предложили сотрудничать ради достижения общей цели, по-видимому, не зная, кто из них и какую роль должен играть в этом процессе. Производительность улучшилась, когда моделям дали более чёткие инструкции о том, как сотрудничать, но исследователи считают, что их встроенные возможности нуждаются в улучшении.

Между тем Amazon потребовала от Perplexity заблокировать использование ИИ-агента браузера Comet для совершения покупок на сайте гиганта электронной коммерции от имени пользователя. В ответ Perplexity обвинила Amazon в запугивании.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”