Команда LMSYS ORG, известная своими опенсорс-инициативами и Chatbot Arena, представила новый фреймворк Miles. Он ориентирован на RL-обучение моделей в промышленном масштабе и создан как развитие проекта slime, который уже применялся в пост-трейне современных моделей. В частности, slime использовали при запуске GLM-4.6. Его популярность доказала, что лёгкий дизайн может работать на серьезных задачах, а Miles поднимает эту идею на новый уровень, добавляя поддержку масштабных архитектур Mixture of Experts и высоких рабочих нагрузок.
Miles вводит подход, который разработчики называют True On-Policy. Ранее между процессом генерации и тренировкой модели возникало заметное расхождение, но инфраструктурные изменения позволили добиться нулевой дивергенции. Это стало возможным благодаря связке Flash Attention 3, DeepGEMM и специализированных ядер от Thinking Machines Lab, которые работают вместе с torch.compile.
Фреймворк также использует продвинутую форму спекулятивного декодирования. Обычно в RL черновая модель замораживается, что ограничивает её способность следовать политике целевой модели. В Miles реализовано онлайн-обучение черновой модели, поэтому она может адаптироваться в реальном времени. На практике это дает более чем 25 процентов прироста скорости генерации, особенно на поздних этапах обучения.
Отдельный акцент сделан на стабильности и экономии памяти. Разработчики улучшили обработку ошибок OOM, предотвращая падение системы при незначительных перегрузках, а также оптимизировали потребление памяти в FSDP. Такой подход критически важен для корпоративных пользователей, где каждый гигабайт GPU-памяти буквально стоит денег.
На ближайшей дорожной карте заявлена поддержка мультимодального обучения, расширенное спекулятивное декодирование и совместимость с SGLang v2.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com