Джек Моррис снял рассуждающий режим с gpt-oss-20b, вернув её к исходному виду

Меньше двух недель назад OpenAI выпустила новое поколение своих мощных моделей с открытыми весами — семейство gpt‑oss. Она распространяется под свободной лицензией Apache 2.0 и стала первой подобной публикацией компании со времён GPT-2 в 2019 году. Не прошло и пары недель, как внешние разработчики уже начали радикально ее переосмыслять.

Один из самых ярких примеров принадлежит Джеку Моррису — аспиранту Cornell Tech, бывшему исследователю в Google Brain и нынешнему сотруднику Meta✶. На этой неделе он представил gpt‑oss-20b‑base — собственную переработку младшей модели gpt‑oss-20B. В его версии убрано поведение, связанное с рассуждением, и модель возвращена к состоянию предобученной базовой версии, где ответы звучат быстрее, свободнее и менее отфильтрованно.

Сейчас модель доступна на Hugging Face под свободной лицензией MIT, что открывает путь как для дальнейших исследований, так и для коммерческого использования.

«Мы, по сути, отменили этап выравнивания в обучении LLM, — написал он в своём треде на X. — Теперь она снова генерирует естественный текст. Больше никаких цепочек рассуждений — просто предсказание следующего токена в обычном тексте».

https://x.com/jxmnop/status/1955436067353502083Как была «извлечена» базовая модель из gpt‑oss-20b

Вместо того чтобы пытаться «взломать» модель с помощью хитроумных промптов — что, по словам Морриса, показало себя бесполезным на ранних экспериментах, — он пошёл другим путём. Подтолкнуло его к этому общение с бывшим сооснователем OpenAI, а ныне главным научным сотрудником стартапа Thinking Machines Джоном Шульманом.

Ключ был в том, чтобы рассматривать «откат выравнивания» как небольшую оптимизационную задачу: если большая часть предобученных знаний всё ещё хранится в весах модели, то достаточно лишь малой корректировки, чтобы подтолкнуть её обратно к базовому поведению.

Моррис реализовал эту идею, применив обновление LoRA (low‑rank adapter) всего к трём слоям модели — MLP‑слоям на позициях 7, 15, 23 — с рангом 16.

Это означало обучение примерно 60 млн параметров, то есть всего 0,3% от общего числа — 21 млрд. В качестве обучающего материала он взял около 20 000 документов из датасета FineWeb, максимально сохранив их в формате предобучения («…»‑стиль, т. е. с многоточиями для разграничения фрагментов). Так модель не узнавала ничего нового, а лишь заново активировала способность к свободной генерации текста.

Обучение заняло четыре дня на восьми GPU NVIDIA H200, рассказал Моррис в личных сообщениях на X. Использовалась скорость обучения 2e-6, размер батча 16 и максимальная длина последовательности в 8192 токена.

Затем он вшил веса LoRA обратно в модель, чтобы пользователи могли запускать её как самостоятельный, полностью доведённый до рабочего состояния артефакт.

Ему также пришлось столкнуться с ограничениями нынешних открытых инструментов для дообучения архитектур типа mixture‑of‑experts (MoE), на которых построена gpt‑oss.

По словам Морриса, он использовал фреймворк Hugging Face, который часто «падал» и поддерживал лишь определённые режимы обучения. В итоге ему пришлось писать собственный код для частых сохранений прогресса и обхода проблемных батчей, чтобы не перегружать память GPU.

Важно подчеркнуть: отвечая на вопросы и критику со стороны AI‑сообщества в X, Моррис уточнил, что он вовсе не утверждает, будто ему удалось восстановить веса базовой модели — те самые внутренние настройки искусственных нейронов, которые и формируют работу нейросети.

https://x.com/NielsRogge/status/1956144888958841058

По словам Морриса, его работа позволила «восстановить распределение базовой модели — пусть и с некоторой погрешностью». Иными словами, речь идёт о вероятностных паттернах, на основе которых модель формирует ответы, даже если конкретные веса, отвечающие за эти паттерны, отличаются.

https://x.com/jxmnop/status/1956377033497362539Как изменилось поведение новой gpt‑oss-20b‑base по сравнению с gpt‑oss-20b

Итоговая версия gpt‑oss-20b‑base стала заметно свободнее в своих ответах: она больше не склонна автоматически раскладывать рассуждения по шагам и выдаёт куда более широкий спектр реакций, включая такие, от которых выравненная модель OpenAI отказывалась, — например, списки ругательств или даже планы незаконных действий.

В коротких тестах Моррис обнаружил, что модель может дословно воспроизводить отрывки из защищённых авторским правом текстов — три из шести проверенных им книг оказались в числе доступных, что говорит о сохранённой памяти на часть обучающих данных.

Тем не менее следы выравнивания остаются. Моррис отметил: если задать ей диалоговый формат («Human: … Assistant: …»), она иногда всё ещё ведёт себя как вежливый чат‑бот. И даже при использовании оригинального шаблона gpt‑oss для чата она способна выполнять рассуждательные задачи, пусть и с потерей качества.

Для лучших результатов в режиме свободного текста он рекомендует начинать запросы со специального начального токена и полностью избегать чатовых шаблонов.

Реакция на первый релиз gpt‑oss была неоднозначной

Отзывы разработчиков о моделях gpt‑oss оказались крайне разными — от восторга до явного разочарования.

Сторонники отмечали свободную лицензию, эффективность и сильные результаты в STEM‑задачах.

Глава Hugging Face Клем Дэланг назвал релиз «значимым вкладом в открытую экосистему» и призвал сообщество дать моделям время на развитие.

Критики же указывали, что модели, похоже, обучены в основном на синтетических данных, из‑за чего они великолепно справляются с математикой и кодом, но хуже показывают себя в художественных задачах, в рассуждениях на общекультурные темы и в многоязычном режиме.

Некоторые ранние тестировщики также выражали обеспокоенность оставшимися фильтрами безопасности и возможной геополитической предвзятостью.

На этом фоне gpt‑oss-20b‑base Морриса выглядит как наглядный пример того, как быстро открытые модели могут быть переработаны и использованы в новых целях — буквально в течение нескольких дней после релиза.

Причём, в отличие от сдержанных реакций на сам релиз OpenAI, отклики на работу Морриса в основном были восторженными. Тем временем Моррис отмечает, что намерен продолжать работу над возвращением моделей рассуждений к базовому состоянию, на этот раз переключившись на модели Qwen:

https://x.com/JMRLudan/status/1956415893660999806

✶ Meta — деятельность организации запрещена на территории Российской Федерации.

Воспользоваться gpt‑oss-20b, gpt‑oss-120b или ChatGPT 5 можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии