ViGaL: как игра в змейку помогла нейросети обогнать GPT-4o в математике

Представьте: чтобы научить нейросеть математике, вы сажаете её не за учебники с интегралами, а за старые добрые аркадные игры — Snake и тетрис. Звучит как безумие? Однако именно такой неожиданный путь к математическим свершениям обнаружили исследователи из Rice University, Johns Hopkins University и Nvidia. Их метод, названный Visual Game Learning (ViGaL), бросил вызов традициям.

Вместо датасетов — игровые автоматы

Обычно ИИ‑модели становятся экспертами, переваривая горы специализированных данных. Но команда учёных пошла другим путём, вдохновившись когнитивной наукой: игры развивают универсальные навыки решения проблем. За основу взяли мультимодальную модель Qwen2.5-VL-7B и создали для неё две кастомные игровые вселенные:

Snake: две змейки на сетке 10×10, соревнующиеся за яблоки. Задача — прокачать планирование пути и избегать препятствий.

Тетрис‑вращалка. Модель видит 3D‑объекты с разных ракурсов и должна распознать их после поворота на 90° или 180° (объекты генерировались с помощью Hunyuan3D).

Для каждой игры сгенерировали по 36 000 тренировочных примеров с регулируемой сложностью. В результате Snake улучшил понимание 2D‑координат и выражений, а Rotation прокачал оценку углов и длин.

Мультимодальная модель наблюдает за игровым полем Snake, планирует пути для избегания препятствий и выбирает ходы для максимизации награды; в игре на вращение она оценивает углы на основе шаблонов, развивая навыки мультимодального мышленияНеожиданный чемпион

Обучение на играх не просто помогло — оно превзошло специализированные подходы. Модель ViGaL на базе Qwen слегка, но уверенно обошла MM‑Eureka‑Qwen-7B (которая как раз тренировалась на математических датасетах): 50,6% против 50,1% точности на математических бенчмарках.

Но настоящий фейерверк случился в геометрии: здесь производительность ViGaL почти удвоилась. Отчасти из‑за слабости MM‑Eureka на геометрическом бенчмарке Geo3K, но даже против других спецмоделей ViGaL показала себя достойно.

Сравнение результатов проприетарных больших моделей, небольших мультимодальных моделей и переобученных версий Qwen-2.5-VL-7B, на пяти математических бенчмарках. ViGaL-1 показывает наивысшие средние результаты

А как ViGaL выглядит на фоне «монстров»? В среднем по всем бенчмаркам — 53,9% точности. Это выше, чем у ChatGPT-4o (47,5%), и совсем рядом с Gemini 2.0 Flash (55,4%). На сложных математических задачах маленькая ViGaL и вовсе на голову превзошла GPT-4o: 64,7% против 55,9%. В более общих задачах она немного уступала своей базовой версии и GPT-4o, но ненамного.

Универсальный солдат

Учёные решили проверить, насколько навыки переносятся. Они дали ViGaL поиграть в Atari (Breakout, Ms. Pac‑Man) — игры, сильно отличающиеся от тренировочных. Модель почти удвоила счёт базовой Qwen. Затем её протестировали на задачах из разных областей: математика, геометрия, анализ 3D‑сцен (CLEVR+), экспертные вопросы из искусства, бизнеса и медицины, — и везде ViGaL показала отличные результаты.

После обучения на играх модель тестировалась на классических аркадных играх Atari, таких как Breakout и Ms. Pac‑Man, а затем применялась к разнообразным задачам на рассуждение, охватывающим математику, геометрию, анализ 3D‑сцен и экспертные вопросы из областей вроде искусства, бизнеса и медициныСекретный соус ViGaL: RL, подсказки и контраст

Что же сделало обучение эффективным?

Пошаговые рассуждения. Подсказки типа «Найди ближайшее яблоко, вычисляя расстояния по Манхэттену» (для Snake) или «Определи важные оси симметрии» (для Rotation) дали прирост в +1,9 п. п. точности.

Контрастное обучение. Модель училась не только на оптимальных ходах, но и на худших. Этот контраст добавил еще +1,8 п. п.

Сложность. Динамическая сложность (например, изменение длины змейки от 1 до 5 сегментов) стабилизировала обучение.

Reinforcement learning (RL). Обучение с подкреплением (с наградами) дало +12,3% к производительности. А вот классический supervised fine‑tuning на тех же игровых данных… ухудшил результат на 1,9%. Яркое доказательство силы RL в этом контексте.

Больше данных. Удвоение объема обучающих данных добавило еще +1,3 п.п.

Будущее: учим ИИ играючи?

Результаты ViGaL открывают интригующие перспективы. Синтетические игры могут стать масштабируемой и эффективной альтернативой дорогим, ручным датасетам для обучения общим навыкам рассуждения. Это потенциально новый парадигма в тренировке ИИ. Учёные видят будущее в исследовании более широкого спектра игр для создания ещё более мощных и универсальных моделей.

Любишь следить за неочевидными прорывами в мире ИИ? Подписывайся на телеграм‑канал BotHub AI News!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии