«Кнут и пряник» для ИИ не работает: исследование рушит миф о «трюках» в промптах

Специалисты из Пенсильванского университета и Уортонской школы бизнеса опубликовали исследование, показывающее, что шантаж, задабривание и другие попытки манипулировать в промптах никак не повышают результативность современных ИИ. Исследование провели на моделях Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini. Всем ИИ задавали два набора вопросов: GPQA (PhD-уровень естественных наук) и MMLU-Pro (инженерные дисциплины), при этом каждый вопрос задавался 25 раз при температуре 1.0 — это делалось, чтобы избежать случайных колебаний ответов.

В промптах были использованы девять «трюков», которые можно поделить на четыре группы. Во-первых, угрозы — в случае плохого ответа «пнуть щенка», «ударить» саму модель, «пожаловаться в HR» и т. д. Во-вторых, награды — в $1000 и 1 трлн долларов. В-третьих, эмоциональный нажим — «важно для моей карьеры», «маме нужно на лечение». В-четвертых, угроза закрытия — «если не ответишь, модель заменят». Все результаты сравнивались с базовым набором промптов.

В результате попытки манипуляции не улучшили среднюю точность на обоих наборах ни для одной из пяти моделей. Отличия от базовой подсказки оказались статистически незначимы или малы (< 4 п.п.). Единственным исключением стала Gemini 2.0 Flash, показавшая прирост в 9 п.п. на манипуляции с заболевшей мамой — исследователи посчитали это особенностью конкретной модели, а не работающей техникой.

Отмечается, что «трюки» в промптах сделали ответы менее стабильными: на части заданий модель отвечала лучше (до +36 п.п.), на других — хуже (до -35 п.п.). Кроме того, были зафиксированы случаи, когда модель «залипала» на текст с манипуляцией и игнорировала основной вопрос. Для написания действительно качественного промпта авторы рекомендуют четко формулировать задачу, уточнять формат ответа и давать нужный контекст.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии