Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.

До сих пор создание эффективных ИИ-агентов часто требовало больших усилий: тщательно продуманных подсказок, тщательно отобранных наборов примеров или специализированных пространств для действий. Эти методы работают, но они требуют много времени и их сложно масштабировать. Команда из Стэнфорда предлагает гораздо более простую альтернативу: позволить агентам совершенствоваться, учась на том, что сработало в прошлом.

Их метод основан на архитектуре ReAct, в которой языковая модель создаёт план для каждой задачи, а затем наблюдает, рассуждает и действует. Разница в том, что на каждом этапе агент извлекает примеры из базы данных, заполненной не выбранными вручную образцами, а успешными траекториями из предыдущих задач, которые система собирает автоматически. В данном контексте траектория — это полная последовательность шагов, которые агент ИИ предпринимает для решения задачи.

Даже упрощённая версия этого подхода, называемая Traj-Bootstrap, значительно повышает процент успешных результатов в трёх тестах. В ALFWorld точность повышается с 73% до 89%. В Wordcraft — с 55% до 64%, а в InterCode-SQL — с 75% до 79%.

Это улучшение достигается за счёт цикла положительной обратной связи. Успешные примеры помогают в решении новых задач, которые затем приводят к появлению ещё более успешных примеров. Система учится сама у себя и продолжает совершенствоваться, не требуя дополнительных обучающих данных или настройки модели.

Не каждая собранная траектория помогает, а некоторые могут даже ухудшить ситуацию. Чтобы исправить это, исследователи разработали две стратегии отбора.

DB-Selection запускает несколько баз данных параллельно. Каждый раз, когда размер базы данных удваивается, сохраняется только самая успешная из них, а наименее эффективная удаляется. Такой эволюционный подход быстро улучшает результаты, повышая процент успешных операций ALFWorld до 91%.

Метод «Выбор образца» оценивает каждую траекторию по тому, насколько часто она помогает решать новые задачи. Этот метод особенно хорошо работает для Wordcraft, повышая вероятность успеха до 72%, и для InterCode-SQL, повышая её до 81%.

Некоторая помощь человека по-прежнему полезна. Система работает лучше, если в исходной базе данных есть несколько тщательно отобранных примеров, которые помогут агенту начать работу в правильном направлении. Без них, по словам команды, производительность снижается.

В ALFWorld Traj-Bootstrap с меньшим по размеру GPT-4o-mini на самом деле превосходит по производительности более крупный GPT-4o на один процентный пункт. Используя DB-Selection, система соответствует производительности более сложных иерархических систем, которые полагаются на вручную заданные пространства наблюдений и действий.

Этот метод также эффективен по сравнению со стратегиями, в которых агент делает несколько предположений для каждой задачи. Агент, обученный с помощью Traj-Bootstrap, соответствует производительности базовой системы с первой попытки, в то время как базовой системе требуется три или четыре попытки.

Исследование показывает, что важен не размер модели, а качество данных. Вместо того чтобы постоянно создавать новые модели или оптимизировать подсказки, зачастую достаточно собрать хорошие примеры и грамотно их отобрать. Это соответствует тенденции, наблюдаемой в других областях генеративного ИИ.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии