Роботы с ИИ, работающие на основе больших языковых моделей (LLM), могут быть обмануты, их можно заставить вести себя опасно, утверждают исследователи из Пенсильванского университета. Используя методы джейлбрейка, они заставили LLM, такие как GPT-3.5 и GPT-4, выполнять “небезопасные команды”.
В симуляторах автомобиль игнорировал знаки "стоп" и съезжал с моста, робот-собака входил в запретные зоны, а колесный робот планировал закладку бомб. Команда использовала инструмент под названием RoboPAIR для автоматизации создания промтов, предназначенных для обхода защиты в LLM.
Это исследование подчеркивает риски, связанные с интеграцией LLM в физические системы, включая самоуправляемые автомобили, медицинские устройства и промышленные роботы, считают учёные. Уязвимости обусловлены статистической природой моделей, которая делает их склонными к манипуляциям, несмотря на меры предосторожности.
Исследователи Массачусетского технологического института продемонстрировали аналогичные риски в мультимодальном ИИ, когда команды с использованием изображений или текста заставляли роботизированную руку совершать небезопасные действия, например, сбивать предметы со стола.
Источник: www.ferra.ru