Языковые модели (LLM) уже умеют решать сложные задачи, но их способность к планированию остается несовершенной. Исследователи из Пекинского университета представили новый метод MPO (Meta Plan Optimization), который помогает LLM-агентам эффективнее выполнять многошаговые задачи.
Что такое MPO?
MPO — это подход, который улучшает планирование действий ИИ-агентов за счет использования мета-планов. Эти планы представляют собой высокоуровневые стратегии выполнения задач, которые абстрагированы от конкретных деталей среды. Например, для задачи «посмотреть на книгу под лампой» мета-план может выглядеть так:
Перейдите туда, где может находиться книга;
Возьмите книгу;
Перейдите к лампе;
Включите лампу и осмотрите книгу.
Описание предложенного метода MPO
Главное преимущество MPO заключается в том, что он работает как универсальное решение, которое можно внедрить в уже существующие системы без необходимости пересматривать всю архитектуру модели. Это делает его удобным инструментом для разработчиков.
Кроме того, MPO позволяет агентам адаптироваться к новым условиям. Например, если задача требует найти предмет в комнате, мета-план может быть абстрактным: «Начните проверку с первого возможного места». Такая стратегия позволяет агенту действовать гибко, даже если он сталкивается с незнакомой ситуацией.
Как работает MPO?
Процесс работы MPO можно разделить на несколько этапов:
Генерация начальных плановНа начальном этапе система учится создавать мета-планы с помощью обучения на примерах. Однако в существующих данных есть только готовые решения задач, но нет самих мета-планов. Чтобы решить эту проблему, исследователи использовали GPT-4o для автоматического создания базового набора планов. Модель получала описание задачи и пример успешного выполнения, после чего создавала обобщенный план решения. Эти планы затем проверялись и дорабатывались вручную, чтобы убрать ошибки и избыточные детали.
Обучение легковесной моделиНа основе этих планов обучается легковесная модель, которая будет генерировать мета-планы для новых задач. Эта модель работает быстрее и дешевле, чем использование больших языковых моделей. Она обучается на данных, полученных от GPT-4o, и может адаптироваться под любую задачу, будь то поиск предмета в комнате или выполнение научного эксперимента.
Оценка планов через тестированиеДля каждой задачи система генерирует несколько вариантов мета-планов, которые затем тестируются агентом в виртуальной среде. Агент выполняет задачу несколько раз, используя разные мета-планы, и рассчитывает коэффициент завершения задачи для каждого плана. Например, если одна стратегия приводит к успеху в 90% случаев, а другая — в 70%, предпочтение отдается первой. Этот процесс в дальнейшем позволяет системе понять, какие стратегии наиболее эффективны, и выделить лучшие мета-планы для использования.
Оптимизация через обратную связьНа последнем этапе система учится на своих ошибках, чтобы улучшить качество мета-планов. Этот процесс автоматизирован и основывается на сравнении пар мета-планов: «лучший» и «худший». Система использует метод Direct Preference Optimization (DPO), чтобы научиться отличать хорошие планы от плохих. В основе DPO лежит простая идея: система увеличивает вероятность выбора лучших планов и снижает вероятность выбора худших. Конкретно, система сравнивает два плана в паре и корректирует свои параметры так, чтобы вероятность генерации лучшего плана стала выше, чем худшего.
Процесс работы MPOЧто показали эксперименты?
Агенты, использующие MPO, стали выполнять задачи значительно лучше: например, на датасете ALFWorld (виртуальная среда с акцентом на бытовые задачи, такие как поиск предметов в комнате или приготовление пищи) средняя награда за шаг увеличилась на 20% по сравнению с базовыми методами;
Агенты реже «застревали» на сложных шагах и быстрее находили решения;
Особенно заметный прогресс наблюдался в новых, незнакомых ситуациях, где агенты раньше часто терпели неудачу;
MPO работает с моделями разного размера. Особенно значительные улучшения наблюдались у моделей среднего размера, таких как Qwen2.5-7B-Instruct.
Сравнение результатов Почему это важно?
MPO решает одну из ключевых проблем современных ИИ-агентов — сложность планирования. MPO помогает им действовать более эффективно, предоставляя высокоуровневые мета-планы, которые абстрагированы от конкретных деталей среды.
Кроме того, этот подход универсален. В отличие от методов ReAct и Reflexion, которые требуют значительных вычислительных ресурсов для динамической корректировки планов, часто зависят от конкретных условий среды, что снижает их гибкость, а также страдают от «галлюцинаций планирования» из-за отсутствия качественного контроля над планами.
У MPO следующие преимущества:
Экономия ресурсов: Планы создаются заранее и оптимизируются на основе обратной связи.
Универсальность: Работает с моделями разного размера и подходит для различных задач, от автоматизации бизнес-процессов до управления роботами.
Простота интеграции: Является «plug-and-play» решением, которое легко внедряется в существующие системы без необходимости пересмотра всей архитектуры модели.
MPO открывает новые возможности для разработки ИИ-агентов, которые могут работать в реальных условиях. Подход особенно актуален для бизнеса, где требуется автоматизация сложных процессов, таких как управление документацией, API-интеграция или решение научных задач. Но несмотря на успехи, есть несколько моментов, которые стоит учитывать: если мета-план содержит ошибку, агент может следовать неверной стратегии, а также помните, что качество планов зависит от качества исходных данных.
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Источник: habr.com