В GPT-5.5 запрещены гоблины, еноты и голуби: в чем дело

В открытом коде нового инструмента от OpenAI обнаружилась строчка, которая повторяется дважды, и она про гоблинов.

Когда разработчики открыли исходный код Codex CLI — фирменного агента OpenAI для работы с кодом — внутри оказался системный промпт GPT-5.5. Системный промпт — это скрытые инструкции, которые задают модели правила поведения еще до того, как пользователь напишет первое сообщение. Обычно там стандартное: отвечай вежливо, не придумывай факты, держись темы. Но среди этих директив нашлось кое-что неожиданное, сообщает Ground.news.

Дважды в документе повторяется одна и та же фраза: модели запрещено упоминать гоблинов, гремлинов, енотов, троллей, огров, голубей и прочих животных или существ, если это не имеет прямого отношения к запросу пользователя. Такое двойное повторение вызвало обсуждения среди пользователей.

OpenAI провела собственное расследование и опубликовала результаты. Выяснилось, что проблема тянется ещё с GPT-5.1 — именно там существа впервые начали просачиваться в ответы. Причина оказалась в совпадении двух факторов. Первый: у ChatGPT была личность под условным названием Nerdy — что-то вроде «душнилы», которому в системном промпте прописали установку «играй с языком, мир странный — наслаждайся этим». Второй: reward-модель во время обучения почему-то особенно щедро поощряла ответы с упоминанием существ. Гоблин в тексте — это плюс к награде, значит модель предпочитала такие ответы.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости