Угрозы, эмоции и безопасность внутри AI. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 6 по 12 апреля

Ловушки для AI-агентов

Google DeepMind выявила «ловушки для ИИ-агентов»: вредоносный контент, встроенный в веб-страницы и цифровые ресурсы. Он создан специально, чтобы атаковать агентов на разных уровнях: восприятие, рассуждение, память, действия, координация между агентами и влияние на человека-оператора.

Исследователи выявили шесть типов атак:

манипуляции с восприятием информациинарушение логики рассужденийотравление памятизахват действий и инструментоввмешательство в координацию нескольких агентовобман человека, контролирующего систему.

Наибольшую опасность представляет отравление памяти. Менее 0,1% вредоносного контента на странице приводит к успешной атаке в более чем 80% случаев. Агенты сохраняют информацию из просмотренных ресурсов — и один зараженный сайт может незаметно нарушить их работу в будущем.

Отдельная проблема — правовая. Если скомпрометированный агент совершает финансовое нарушение, пока неясно, кто несет ответственность: пользователь, разработчик модели или владелец ресурса.

Почему это важно: такие атаки тормозят внедрение ИИ-агентов в компаниях, ведь риски слишком высоки. Защита агентов от манипуляций становится ключевой задачей для всей отрасли. Без совместных усилий разработчиков и специалистов по безопасности создать надежные автономные ИИ-системы не получится.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости