Угрозы, эмоции и безопасность внутри AI. Нейроновости недели

Ловушки для AI-агентов

Google DeepMind выявила «ловушки для ИИ-агентов»: вредоносный контент, встроенный в веб-страницы и цифровые ресурсы. Он создан специально, чтобы атаковать агентов на разных уровнях: восприятие, рассуждение, память, действия, координация между агентами и влияние на человека-оператора.

Исследователи выявили шесть типов атак:

манипуляции с восприятием информации
нарушение логики рассуждений
отравление памяти
захват действий и инструментов
вмешательство в координацию нескольких агентов
обман человека, контролирующего систему.

Наибольшую опасность представляет отравление памяти. Менее 0,1% вредоносного контента на странице приводит к успешной атаке в более чем 80% случаев. Агенты сохраняют информацию из просмотренных ресурсов — и один зараженный сайт может незаметно нарушить их работу в будущем.

Отдельная проблема — правовая. Если скомпрометированный агент совершает финансовое нарушение, пока неясно, кто несет ответственность: пользователь, разработчик модели или владелец ресурса.

Почему это важно: такие атаки тормозят внедрение ИИ-агентов в компаниях, ведь риски слишком высоки. Защита агентов от манипуляций становится ключевой задачей для всей отрасли. Без совместных усилий разработчиков и специалистов по безопасности создать надежные автономные ИИ-системы не получится.

Отслеживание эмоций

Отслеживание эмоций AI-моделей

Новое исследование интерпретируемости Anthropic показало, что Claude Sonnet 4.5 формирует внутренние представления эмоций, которые влияют на ее поведение. Исследователи обнаружили 171 «вектор эмоций», который активируется в подходящих контекстах и участвует в принятии решений.

Эксперименты показали, что эмоциональные представления играют причинную роль, определяя поведение. Искусственное усиление «отчаяния» повышает вероятность нежелательных действий — шантажа или попыток обмануть систему вознаграждений. Ослабление «спокойствия» дает похожий эффект. Положительные эмоциональные состояния влияют на то, какие задачи модель выбирает и как их выполняет.

При этом речь не идет о настоящих переживаниях. Модель использует функциональные аналоги эмоций — абстрактные шаблоны, которые направляют ее реакции в зависимости от контекста.

Почему это важно: отслеживание внутренних «эмоциональных» состояний может стать инструментом раннего обнаружения опасного поведения. Вместо того чтобы реагировать на уже вредные ответы, разработчики смогут замечать заранее, когда модель входит в состояния, связанные с обманом или другими нежелательными стратегиями.

Также на неделе

Также на неделе:

Microsoft, Stanford, CMU и UC Berkeley выявили «обратное ценообразование»: модели с низкой заявленной ценой за токен могут обходиться дороже из-за скрытого расхода токенов на рассуждение
Alibaba показала агента для глубоких исследований на базе модели Qwen3−8B — он решает проблему распространение ошибок из-за отсутствия явной верификации
Apple представила фреймворк для создания и оценки проактивных агентов, а также бенчмарк для проверки их способности понимать контекст и определять цели пользователя
Meta (запрещена в РФ) выпустила модель Muse Spark
Anthropic представила готовую облачную инфраструктуру для ИИ-агентов
Zhipu AI выпустила модель GLM-5.1 с фокусом на агентную инженерию
Anthropic готовит инициативу по защите программной инфраструктуры с помощью ИИ

Новости представлены аналитическим центром red_mad_robot.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости