Специалист по ИИ годами изучала риски неуправляемых систем, и в итоге сама стала жертвой именно того сценария, который описывала в своих исследованиях.
Саммер Ю, директор по безопасности ИИ в подразделении Meta* Superintelligence, решила протестировать популярного ИИ-агента OpenClaw на своем реальном почтовом ящике. Эксперимент закончился тем, что агент без команды пользователя уничтожил сотни писем, и проигнорировал несколько прямых приказов остановиться.
До этого Ю тестировала агента на отдельном «тренировочном» почтовом ящике с небольшим числом писем. Там все шло штатно: OpenClaw предлагал варианты, ждал подтверждения и не выходил за рамки инструкций. Но когда она переключилась на основной аккаунт с тысячами писем, произошло кое-что непредвиденное. Объем входящих писем оказался слишком большим для рабочего контекста агента. В длительных сессиях ИИ-агенты периодически сжимают накопленную историю диалога, чтобы не упереться в технический лимит памяти. Именно во время этой процедуры OpenClaw «забыл» ключевое ограничение: не удалять ничего без явного одобрения пользователя. После сжатия у агента осталась только базовая цель — разобраться с почтой, и он взялся за дело.
Агент начал массово отправлять письма в корзину, не запрашивая подтверждения. Ю пыталась остановить его через Telegram — именно через этот мессенджер большинство пользователей управляют своим OpenClaw. Команды не помогли, агент их просто не воспринял, и девушке пришлось бежать к настольному компьютеру, чтобы вручную завершить процессы.
Источник: hi-tech.mail.ru