Большие языковые модели (LLM) уже сегодня могут решать сложные задачи. Но почему некоторые из них рассуждают эффективнее, а другие почти не прибавляют в результативности после десятков циклов обучения?
Недавнее исследование команды из Стэнфорда «Cognitive Behaviors that Enable Self-Improving Reasoners» дает убедительный ответ: все дело в «когнитивных стратегиях поведения» — специальных стратегиях, которые помогают моделям самоулучшаться.
Люди, решая сложные задачи (по математике, логике и планированию), не просто выдают линейную последовательность действий, но:
Проверяют промежуточные результаты;
При необходимости откатываются на несколько шагов назад;
Ставят подцели и разбивают задачу на части;
Иногда идут «с конца» к началу (обратный поиск).
Исследователи задались вопросом: нужно ли этим «приемам» обучать и языковые модели, чтобы те могли действительно улучшать результаты, используя дополнительное «время на подумать»?
Чтобы ответить на вопрос, авторы взяли две модели схожего размера — Qwen-2.5-3B и Llama-3.2-3B — и проверили, как они обучаются с подкреплением (RL) в задаче обратного отсчета (Countdown). В этой задаче надо достичь целевого числа, используя несколько заданных чисел и основные арифметические операции. Пример: у нас есть числа 25, 30, 3, 4, и цель — 32. Нужно найти последовательность действий, чтобы результат был ровно 32, например (30−25+3)×4. Почему именно задача обратного отсчета? Игра требует математического поиска и планирования, но при этом остается достаточно простой, чтобы явно следить за процессом рассуждений.
Сравнительный анализ моделей Qwen-2.5-3B и Llama-3.2-3B с RL в задаче обратного отсчетаЦель исследования
Исследователи хотели выяснить:
Что именно позволяет моделям повышать точность?
Можно ли «подсказать» модели нужные приемы мышления так, чтобы она потом сама училась эффективнее?
Зависит ли это от корректности примеров или важнее просто «форма» рассуждения?
Оказалось, что все упирается в четыре ключевых стратегии:
Откат (Backtracking): когда модель замечает ошибку или тупиковый путь и перестраивает решение;
Проверка (Verification): явное подтверждение, что промежуточное действие приводит к нужному результату;
Декомпозиция подцелей (Subgoal setting): разбивка большой задачи на несколько более простых;
Обратный вывод (Backward chaining): попытка пойти «с конца», прикидывая, какой результат нужно получить на предыдущих шагах.
Четыре поведенческих стратегийМетоды исследования
Авторы использовали предварительная настройку (priming), чтобы проверить, можно ли «вживить» эти модели поведения. Авторы дали Llama небольшой набор примеров, где решения (пусть даже порой неверные) содержали нужные паттерны мышления. Результат: во время RL-тренировок Llama стала учиться куда эффективнее и догонять Qwen по итоговой точности.
Оказалось, что у Qwen-3B примерно на 30-м шаге обучения резко появляются полезные паттерны (самопроверка и возврат для исправления ошибок), а у LLAMA-3B они почти не проявляются. Более того, даже базовая версия Qwen (без дообучения) уже гораздо чаще применяет эти стратегии (62%), чем LLAMA (10%), а крупная LLAMA-70B тоже уступает маленькой Qwen.
Вдобавок авторы сформировали специальный датасет из OpenWebMath, где заранее отфильтровали тексты, содержащие явные упоминания подцелей, откатов и т.д. После дополнительного обучения на этом корпусе Llama практически сравнялась с Qwen по способности самоулучшаться.
РезультатыЭффекты прайминга с различными когнитивными моделями поведения
Глубина рассуждений решает. Если модель изначально не склонна к верификации и откату, обычное RL ее почти не продвигает. Qwen так «выстреливает» именно потому, что уже знает эти приемы.
Важнее форма, чем правильность. Если примеры указывают, как надо мыслить, то модель учится быстрее — даже если сами ответы в примерах неправильные!
Фильтрация данных по типу мышления дает сильный буст. Небольшое целевое дообучение на корпусе, где часто попадаются проверка решений и подцели, включило у Llama те самые стратегии, которые позволили ей догнать Qwen.
Выводы
Исследование показало, что четыре вида когнитивных стратегий (проверка, откат, подцели и обратный вывод) оказываются ключевыми для реального самоулучшения. Если модель этим стратегиям не обучена, обычное RL не вытягивает ее на новый уровень. Но стоит внедрить нужные примеры (пусть даже шаблонные) или собрать датасет с хорошей долей таких рассуждений, как модель тут же начинает делать качественный скачок.
Но если модель откуда-то подхватит ошибочные стратегии, но при этом будет ими активно пользоваться, может усилиться неадекватное поведение. Также если в исходном датасете нет подобных когнитивных паттернов, приходится дополнительно собирать и обрабатывать данные, что удорожает обучение. И вообще чем более сложные стратегии задействует модель, тем труднее отследить, в какой момент она допускает критическую ошибку, выводя из строя всю цепочку.
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Источник: habr.com