Один агент управляет, другие делают работу: новая эпоха кооперативного обучения ИИ?

Исследователи из Имперского колледжа Лондона и Ant Group предложили новую архитектуру мульти-агентного обучения, в которой несколько ИИ-агентов совместно решают сложные, многошаговые задачи благодаря разделению ролей и координации.

Один агент выступает в роли менеджера проекта, контролируя ход работы, а остальные специализируются на отдельных задачах, например, поиск в интернете или анализ данных. Такой подход обеспечивает более надёжное выполнение, чем попытки одного агента делать всё сам.

Главная инновация — это алгоритм M-GRPO (Multi-Agent Group Relative Policy Optimization). Он расширяет GRPO и позволяет тренировать менеджера и суб-агентов одновременно, даже если они запускаются на разных серверах или выполняют разные задачи. Каждый агент обучается отдельно, но синхронизируется через общую базу данных.

Кроме того, агенты сохраняют свои роли. Менеджер оценивается по качеству итогового решения, а суб-агенты — по своей части работы и вкладу в общий результат. Это помогает построить устойчивое и скоординированное поведение.

Чтобы справляться с различной частотой действий агентов, M-GRPO предлагает механизм выравнивания, который регулирует, как часто суб-агенты будут вызываться. Это позволяет поддерживать стабильность в обучении, даже если один агент работает постоянно, а другой — реже.

Эксперименты показали, что при тестировании на трёх бенчмарках — GAIA, XBench-DeepSearch и WebWalkerQA — мульти-агентная система показала более стабильное поведение и потребовала меньше тренировочных данных, чем одни агенты или мульти-агенты без обучения суб-агентов.

В реальных сценариях система проявила себя уверенно. Например, в логической задаче с кубиком Рубика главный агент выбрал правильную стратегию для математических шагов, а в задаче по исследованию инвазивных видов — дал более точные указания, чем необученная модель, при этом суб-агенты действовали эффективно.

Авторы статьи подчёркивают, что этот подход может стать важным шагом для ИИ-систем, которым нужно координировать сложную работу и принимать решения на разных уровнях — особенно там, где требуется распределение задач, делегирование и последовательность действий. Следим за новостями!

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии