Ant Group представила исследование об обучении триллионных reasoning-моделей

Исследователи Ant Group опубликовали техническое исследование модели Ring-1T — одной из крупнейших и самых устойчивых reasoning-систем в мире. Она содержит 1 триллион параметров, но при генерации использует только 50 миллиардов активных.

Ring-1T уже достигает уровня IMO 2025 Silver, что означает способность решать олимпиадные задачи и логические цепочки, требующие многозвенной аргументации.

Главное достижение — устойчивость при долгом мышлении. Большинство больших моделей теряют фокус после 30–40 шагов рассуждения, но Ring-1T стабильно работает на сотнях итераций.

Это стало возможным благодаря трём инновациям:

IcePop — система, стабилизирующая градиенты при длинных рассуждениях, чтобы модель не сходила с ума от перегрева контекста.

C3PO++ — механизм, оптимизирующий использование GPU и минимизирующий пустые вычисления.

ASystem — новый планировщик синхронизации, делающий RL-обучение более предсказуемым и устойчивым.

Результаты на тестах: 55.94 на ARC AGI 1 и 2088 на CodeForces, что уже выше большинства reasoning-LLM коммерческого класса.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”