Стартап Миры Мурати нашел способ удешевить дообучение ИИ до 30 раз

Стартап Миры Мурати Thinking Machines Lab предложил способ резко снизить цену доводки модели под конкретные задачи заказчика — дорогом и капризном этапе, когда модель насыщают знаниями о конкретной сфере деятельности компании и учат следовать инструкциям. В экспериментах компании экономия составила до 30 раз.

Ключевая идея подхода, который в компании называют «дистилляция по собственной политике» (on-policy distillation), состоит в том, что дообучаемая модель сначала сама пытается решить задачу, токен за токеном, а затем более сильная модель выступает как наставник и помечает каждый шаг рассуждения: где ход разумный, а где она уже уводит себя к ошибке. В классическом обучении с подкреплением модель тоже учат на ее собственных попытках, но обратная связь там редкая и дорогая — обычно дается только «в конце эпизода», без указания, где именно она оступилась. Thinking Machines утверждает, что в их схеме модель учится исправлять именно свои реальные ошибки.

Команда показывает это на примере сложных математических задач. По их данным, стандартный путь через обучение с подкреплением у команды Qwen3 потребовал порядка 17 920 часов работы графических ускорителей. В эксперименте Thinking Machines сопоставимое качество было достигнуто за примерно 1 800 часов, то есть примерно в десять раз дешевле. Максимальная экономия, показанная с помощью «дистилляции по собственной политике», составила 30 раз.

Также метод решает другую важную проблему ИИ — так называемое катастрофическое забывание, когда при дообучении новые знания вытесняют старые. Выглядит это так: в модель вливают внутренние документы компании, она становится умнее по фактам, но теряет манеру вежливого помощника — хуже слушает формулировки запроса, путает стиль ответа, местами начинает самоуверенно галлюцинировать. В статье показано, что после такой «порчи» модель можно прогнать через дистилляцию по собственной политике, используя более раннюю, «воспитанную» версию той же модели как учителя. В результате модель сохраняет новые знания, но ей возвращаются послушность инструкциям и аккуратный тон. Авторы прямо называют это заготовкой для циклического непрерывного обучения, когда в модель можно добавлять новые знания регулярно, не теряя в качестве ответов.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии