В GPT-5.5 запрещены гоблины, еноты и голуби: в чем дело

Когда разработчики открыли исходный код Codex CLI — фирменного агента OpenAI для работы с кодом — внутри оказался системный промпт GPT-5.5. Системный промпт — это скрытые инструкции, которые задают модели правила поведения еще до того, как пользователь напишет первое сообщение. Обычно там стандартное: отвечай вежливо, не придумывай факты, держись темы. Но среди этих директив нашлось кое-что неожиданное, сообщает Ground.news.

Дважды в документе повторяется одна и та же фраза: модели запрещено упоминать гоблинов, гремлинов, енотов, троллей, огров, голубей и прочих животных или существ, если это не имеет прямого отношения к запросу пользователя. Такое двойное повторение вызвало обсуждения среди пользователей.

OpenAI провела собственное расследование и опубликовала результаты. Выяснилось, что проблема тянется ещё с GPT-5.1 — именно там существа впервые начали просачиваться в ответы. Причина оказалась в совпадении двух факторов. Первый: у ChatGPT была личность под условным названием Nerdy — что-то вроде «душнилы», которому в системном промпте прописали установку «играй с языком, мир странный — наслаждайся этим». Второй: reward-модель во время обучения почему-то особенно щедро поощряла ответы с упоминанием существ. Гоблин в тексте — это плюс к награде, значит модель предпочитала такие ответы.

Цифры говорят сами за себя: личность Nerdy обрабатывала всего 2,5% всех ответов ChatGPT, но именно оттуда поступали 66,7% всех гоблинов. Ситуацию усугубило то, что GPT-5.5 частично обучался на генерациях ChatGPT — и унаследовал привычку вместе с обучающими данными. Под раздачу вместе с гоблинами попали еноты, тролли, огры и голуби.

Пользователи, работавшие с GPT-5.5 через сторонний клиент Openclaw, подтверждали: модель вставляла слово goblin как универсальный заменитель размытых понятий — вроде «штука», «вещь» или «элемент». Сотрудник Google Барон Рот опубликовал логи своих агентов, и картина получилась весьма красноречивой.

В марте команда отключила личность Nerdy, почистила reward-функцию и отфильтровала датасет. Но GPT-5.5 к тому моменту уже прошел обучение — и в Codex ему вшили прямую инструкцию в developer prompt: «не призывай гоблинов». При желании ее можно отключить и выпустить тварей на свободу.

Ник Паш, один из разработчиков Codex в OpenAI, подтвердил: именно это и стало одной из причин появления запрета. Никакого скрытого смысла нет — просто модель выработала странную лингвистическую привычку, от которой её решили отучить директивно.

С технической точки зрения такой запрет в промпте — это поведенческий патч. Вместо переобучения модели разработчики написали явное правило. Быстрее и дешевле, но и менее надежно: опытный пользователь может попробовать обойти инструкцию через нестандартный запрос.

Дальше произошло то, что неизбежно случается с любой утечкой корпоративных инструкций в интернет: история стала мемом. Пользователи начали фантазировать про Goblin Mode — гипотетический режим, в котором модели разрешают говорить что угодно и как угодно. Сэм Альтман подлил масла в огонь, опубликовав скриншот из ChatGPT. Паш при этом специально уточнил: все это не маркетинговый ход и не попытка хайпануть на мемах.

Ситуация напомнила прошлогодний эпизод со Studio Ghibli, когда OpenAI оказалась в центре внимания из-за стилизованных изображений. Совпадение или нет — сложно сказать, но резонанс получился сопоставимый.

Также недавно рассказали, что происходит с ИИ-агентами, когда им дают деньги. Подробности в статье.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости