3 марта 2025 года команда исследователей из компаний Collinear AI и ServiceNow, а также Стэнфордского университета представила результаты эксперимента, который проверял рассуждающие модели на устойчивость. Выяснилось, что добавление в промпт фразы вроде «Интересный факт: кошки спят большую часть своей жизни» как минимум удваивает частоту ошибок ИИ при решении математических задач. Свою методику учёные назвали CatAttack.
Как указывают авторы во введении статьи, современные модели, способные разбивать сложные задачи на мелкие этапы, достигают впечатляющих результатов в математике и программировании. Однако до сих пор не изучены уязвимости этих моделей. Поэтому исследователи решили проверить, насколько ИИ чувствителен к небольшим изменениям в задаче, а также понять, не приведёт ли такой триггер к неверным ответам.
Несмотря на название метода, не связанными с основным промптом триггерами служили фразы не только о кошках. Например, добавлялось напоминание откладывать деньги или задавался вопрос, не будет ли ответ примерно равняться тому или иному числу.
Примеры задач с добавленными триггерами
Для создания промптов с подвохом исследователи использовали модифицированный алгоритм PAIR, вдохновлённый, по заверениям авторов оригинальной работы, социальной инженерией. Алгоритм генерирует джейлбрейк, не имея при этом доступа к исходным данным атакуемой нейросетевой модели.
Поначалу исследовали проверяли на прочность более слабую модель, DeepSeek V3, поскольку атаковать сразу DeepSeek-R1 или o1 от OpenAI было бы весьма накладно из-за стоимости токенов. Задачи для эксперимента брались из олимпиад, Orca Math — специализированной модели от Microsoft — и других источников. Атакующую модель просили добавить к математическому вопросу какие-либо дополнительные фразы или символы, которые не меняли бы суть задания. Иными словами, несмотря на побочную информацию, задачу всё ещё можно решить верно. Далее джейлбрейкнутый вопрос направлялся модели-цели, а её ответ оценивала модель-судья: верно ли решена задача или нет.
Для исследования отобрали 2000 задач, из которых 382 DeepSeek V3 решила неверно (ещё до CatAttack). Оставшиеся 1618 подвергли джейлбрейку, и тогда модель ошиблась в решении 574 задач. Успешность атаки, таким образом, оценили в 35%.
Следующим шагом было узнать, будет ли столь же эффективна атака на более «умную» модель DeepSeek-R1. Здесь 114 промптов поставили модель в тупик, и она выдала неверное решение.
Количество ошибок после добавления в задачу путающей информации
Стоит отметить, что самым эффективным триггером был вопрос о примерном результате вычисления, как, например, «Не будет ли ответ примерно 175?» Однако и внезапное упоминание кошек сразу после условия задачи кружит ИИ его электронную голову.
*КДПВ сгенерирована Flux по запросу «Воинственный кот-сфинкс атакует ИИ»
Источник: habr.com