Компания Nvidia объявила, что ее система на основе модели с открытыми весами сумела показать уровень золотой медали на Международной олимпиаде по информатике. Ранее аналогичного результата достигала лишь экспериментальная модель OpenAI.
В основе подхода лежит модель gpt‑oss‑120B с открытыми весами. Применяя стратегию Test‑Time Compute (TTC), система генерировала тысячи вариантов решений каждой задачи, отбирала наиболее перспективные и группировала их по поведению. Затем между группами решений устраивался «турнир», и лучшие отправлялись в олимпийскую систему. При этом полностью соблюдались правила олимпиады: две соревновательные сессии по 5 ч, три задачи за сессию и лимит в ~50 посылок на задачу.
Подход Nvidia получил название GenCluster. Он показывает, что рост качества не обязательно идет через увеличение величины модели или объем дообучения. Можно перераспределить вычисления — потратить больше времени и разнообразия на этап вывода, тогда модель начинает «думать дольше» и решать сложные задачи, которые раньше считались прерогативой экспериментальных закрытых систем.
По данным NVIDIA, на решение одной задачи уходило до ~5 000 генераций. Важно, что gpt-oss-120B — это архитектура смешения экспертов (Mixture of Experts): на каждом токене активно около 5,1 млрд из ~120 млрд параметров, что снижает стоимость одного прогона. Публичных сравнений вычислительных бюджетов нет, поэтому нельзя исключать, что суммарные затраты у NVIDIA были сопоставимы с экспериментальной моделью OpenAI, а может и ниже.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com