
Ловушки для AI-агентов
Ловушки для AI-агентов
Google DeepMind выявила «ловушки для ИИ-агентов»: вредоносный контент, встроенный в веб-страницы и цифровые ресурсы. Он создан специально, чтобы атаковать агентов на разных уровнях: восприятие, рассуждение, память, действия, координация между агентами и влияние на человека-оператора.
Исследователи выявили шесть типов атак:
- манипуляции с восприятием информации
- нарушение логики рассуждений
- отравление памяти
- захват действий и инструментов
- вмешательство в координацию нескольких агентов
- обман человека, контролирующего систему.
Наибольшую опасность представляет отравление памяти. Менее 0,1% вредоносного контента на странице приводит к успешной атаке в более чем 80% случаев. Агенты сохраняют информацию из просмотренных ресурсов — и один зараженный сайт может незаметно нарушить их работу в будущем.
Отдельная проблема — правовая. Если скомпрометированный агент совершает финансовое нарушение, пока неясно, кто несет ответственность: пользователь, разработчик модели или владелец ресурса.
Почему это важно: такие атаки тормозят внедрение ИИ-агентов в компаниях, ведь риски слишком высоки. Защита агентов от манипуляций становится ключевой задачей для всей отрасли. Без совместных усилий разработчиков и специалистов по безопасности создать надежные автономные ИИ-системы не получится.
Отслеживание эмоций
Отслеживание эмоций AI-моделей
Новое исследование интерпретируемости Anthropic показало, что Claude Sonnet 4.5 формирует внутренние представления эмоций, которые влияют на ее поведение. Исследователи обнаружили 171 «вектор эмоций», который активируется в подходящих контекстах и участвует в принятии решений.
Эксперименты показали, что эмоциональные представления играют причинную роль, определяя поведение. Искусственное усиление «отчаяния» повышает вероятность нежелательных действий — шантажа или попыток обмануть систему вознаграждений. Ослабление «спокойствия» дает похожий эффект. Положительные эмоциональные состояния влияют на то, какие задачи модель выбирает и как их выполняет.
При этом речь не идет о настоящих переживаниях. Модель использует функциональные аналоги эмоций — абстрактные шаблоны, которые направляют ее реакции в зависимости от контекста.
Почему это важно: отслеживание внутренних «эмоциональных» состояний может стать инструментом раннего обнаружения опасного поведения. Вместо того чтобы реагировать на уже вредные ответы, разработчики смогут замечать заранее, когда модель входит в состояния, связанные с обманом или другими нежелательными стратегиями.
Также на неделе
Также на неделе:
- Microsoft, Stanford, CMU и UC Berkeley выявили «обратное ценообразование»: модели с низкой заявленной ценой за токен могут обходиться дороже из-за скрытого расхода токенов на рассуждение
- Alibaba показала агента для глубоких исследований на базе модели Qwen3−8B — он решает проблему распространение ошибок из-за отсутствия явной верификации
- Apple представила фреймворк для создания и оценки проактивных агентов, а также бенчмарк для проверки их способности понимать контекст и определять цели пользователя
- Meta (запрещена в РФ) выпустила модель Muse Spark
- Anthropic представила готовую облачную инфраструктуру для ИИ-агентов
- Zhipu AI выпустила модель GLM-5.1 с фокусом на агентную инженерию
- Anthropic готовит инициативу по защите программной инфраструктуры с помощью ИИ
Новости представлены аналитическим центром red_mad_robot.
Источник: hi-tech.mail.ru