Исследование AI выявило ключевые факторы, лежащие в основе долгосрочных способностей LLM к рассуждениям

Систематическое исследование раскрывает методы, с помощью которых генерируются длинные цепочки мыслей моделей рассуждений. Результаты дают практические советы по оптимизации стратегий обучения. Команда IN.AI вместе с исследователями из Университета Цинхуа и Университета Карнеги-Меллона составила карту того, как модели AI развивают свою способность работать с длинными цепочками мыслей. Их систематическое исследование использовало контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для выявления ключевых факторов, лежащих в основе этой способности.

Исследование дало четыре ключевых вывода. Во-первых, хотя SFT делает обучение более эффективным и простым, это не обязательно — подтверждая то, что обнаружил Deepseek с их моделью R1-Zero. Команда проверила это, используя математические модели Llama-3.1-8B и Qwen2.5-7B, обучая их как с длинными, так и с короткими цепочками рассуждений. Они обнаружили, что SFT с более длинными цепочками мыслей не только показала лучшие результаты, но и сделала последующие улучшения RL более эффективными.

Во-вторых, хотя большая вычислительная мощность во время обучения RL, как правило, улучшает способности к рассуждению, это не гарантировано. Длина цепочек рассуждений не всегда постоянно растет во время обучения RL, что делает правильный дизайн вознаграждения критически важным для последовательного улучшения.

В-третьих, получение надежных сигналов вознаграждения в масштабе является ключом к успешному обучению RL. Команда исследовала использование данных, полученных из веб-скрапа, с несовершенными решениями для масштабирования этих сигналов. Тестируя с набором данных WebInstruct, они сравнили различные методы проверки и обнаружили, что проверка на основе правил работала лучше всего при фильтрации для более коротких ответов. Использование разнообразных данных, даже если они были несколько шумными, оказалось особенно ценным для обработки необычных случаев по сравнению с моделями, обученными на тщательно проверенных данных.

В-четвертых, хотя базовые модели уже содержат основные возможности, такие как исправление ошибок, использование RL для применения этих навыков к сложным задачам может потребовать значительных вычислительных ресурсов.

Исследование предполагает, что некоторые типы поведения, такие как двойная проверка решений, могут быть изучены во время предварительного обучения, возможно, из человеческих обсуждений на онлайн-форумах. RL, по-видимому, в основном помогает моделям рекомбинировать навыки, которые они уже приобрели во время предварительного обучения.

Команда считает, что размер модели остается основным ограничением для разработки более сложных способностей рассуждения в меньших моделях. Они рассматривают возможность тестирования RL с более крупными базовыми моделями в будущем, хотя необходимая инфраструктура с открытым исходным кодом для таких экспериментов все еще разрабатывается.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии