Новый подход показывает, что тщательно подобранные обучающие данные и гибкое управление вычислениями во время тестирования могут помочь AI-моделям более эффективно решать сложные задачи, требующие логического мышления.
Из почти 60 000 пар вопросов и ответов исследователи выбрали всего 1000 высококачественных примеров, которые соответствовали трём ключевым критериям: они должны были быть сложными, относиться к разным областям знаний и соответствовать высоким стандартам ясности и форматирования. Примеры включали этапы мышления, сгенерированные с помощью Gemini 2.0 Flash Thinking.
Несмотря на то, что у s1-32B есть лишь малая часть примеров из других моделей, он очень хорошо справляется с математическими тестами.
Используя этот компактный, но тщательно подобранный набор данных, исследователи из Стэнфордского университета и Института искусственного интеллекта Аллена обучили языковую модель среднего размера под названием s1-32B на основе Qwen2.5 с 32 миллиардами параметров.
Модель изучила по примерам решений, какие шаги и объяснения приводят к правильным ответам. Благодаря целенаправленному отбору данных обучение заняло всего 26 минут на 16 графических процессорах Nvidia H100 — в общей сложности около 25 часов работы на графическом процессоре. Хотя точные цифры для аналогичных моделей, таких как OpenAI o1 или DeepSeek-R1, неизвестны, они, вероятно, требуют тысяч часов работы на графическом процессоре.
Команда также разработала «бюджетное принуждение» — метод контроля мыслительного процесса модели. Если модель выполняет заданное количество шагов вычислений, она должна выдать ответ. Если модели требуется больше времени, добавление слова «Подождите» побуждает её пересмотреть предыдущий ответ и проверить свои рассуждения на наличие ошибок.
Бюджетное принуждение как эффективная стратегия вмешательства: добавление «подождать» продлевает мыслительный процесс модели, что приводит к самокоррекции с 2 до 3 «r».
Ограничение бюджета позволяет пользователям при необходимости корректировать тщательность обучения модели. Тесты показали, что более высокий бюджет, вызванный более частыми командами «Подождите», даёт лучшие результаты. Обученная модель даже превзошла более требовательные к данным модели OpenAI o1-preview и o1-mini в математических тестах.
По сравнению с другими закрытыми и открытыми языковыми моделями, s1-32B демонстрирует свои сильные стороны, особенно в области математики.
Дальнейшие тесты показали, что только сочетание всех трёх критериев отбора данных — сложности, разнообразия и качества — обеспечивает оптимальную производительность. Ограничение отбора отдельными критериями или случайный выбор приводили к ухудшению результатов на 30 процентов.
Интересно, что даже полный набор данных, в 59 раз превышающий по объёму тщательно отобранные 1000 примеров, не улучшил результаты. Контроль бюджета оказался более важным, позволяя точно управлять вычислениями во время тестирования и демонстрируя чёткую связь между вложенными токенами и производительностью.
Увеличение времени на обдумывание за счёт добавления команд «ожидания» приводит к значительному улучшению способности решать математические задачи.
Исследование показывает, что небольшой, но хорошо подобранный обучающий набор данных может подготовить языковые модели к решению сложных задач. В сочетании с гибкими вычислениями во время тестирования модели могут работать более эффективно, когда это необходимо, без увеличения их размера.
Хотя s1-32B и принудительное распределение бюджета выглядят многообещающе, результаты тестов отражают производительность только в узком наборе навыков. Исследователи поделились своим кодом и данными о тренировках на GitHub, чтобы стимулировать дальнейшее развитие.
Многие исследовательские группы пытались сопоставить ведущие модели искусственного интеллекта в сложных рассуждениях, используя все более большие наборы данных. Недавно OpenAI добавила свою последнюю модель reasoning o3-mini в ChatGPT. Однако китайская компания DeepSeek показала, что конкурентоспособные модели возникают благодаря эффективному использованию ресурсов и реализации хороших идей — одним из них может быть форсирование бюджета.
Источник
Источник: habr.com