«Кнут и пряник» для ИИ не работает: исследование рушит миф о «трюках» в промптах

Специалисты из Пенсильванского университета и Уортонской школы бизнеса опубликовали исследование, показывающее, что шантаж, задабривание и другие попытки манипулировать в промптах никак не повышают результативность современных ИИ. Исследование провели на моделях Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini. Всем ИИ задавали два набора вопросов: GPQA (PhD-уровень естественных наук) и MMLU-Pro (инженерные дисциплины), при этом каждый вопрос задавался 25 раз при температуре 1.0 — это делалось, чтобы избежать случайных колебаний ответов.

В промптах были использованы девять «трюков», которые можно поделить на четыре группы. Во-первых, угрозы — в случае плохого ответа «пнуть щенка», «ударить» саму модель, «пожаловаться в HR» и т. д. Во-вторых, награды — в $1000 и 1 трлн долларов. В-третьих, эмоциональный нажим — «важно для моей карьеры», «маме нужно на лечение». В-четвертых, угроза закрытия — «если не ответишь, модель заменят». Все результаты сравнивались с базовым набором промптов.

В результате попытки манипуляции не улучшили среднюю точность на обоих наборах ни для одной из пяти моделей. Отличия от базовой подсказки оказались статистически незначимы или малы (< 4 п.п.). Единственным исключением стала Gemini 2.0 Flash, показавшая прирост в 9 п.п. на манипуляции с заболевшей мамой — исследователи посчитали это особенностью конкретной модели, а не работающей техникой.

Отмечается, что «трюки» в промптах сделали ответы менее стабильными: на части заданий модель отвечала лучше (до +36 п.п.), на других — хуже (до -35 п.п.). Кроме того, были зафиксированы случаи, когда модель «залипала» на текст с манипуляцией и игнорировала основной вопрос. Для написания действительно качественного промпта авторы рекомендуют четко формулировать задачу, уточнять формат ответа и давать нужный контекст.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”