
Многоступенчатые задачи
AI и многоступенчатые задачи
Meituan и Tsinghua University представили SDAR (Self-Distilled Agentic Reinforcement Learning): метод обучения AI-агентов для сложных многошаговых задач. Проблема существующих подходов в том, что сигналы обучения с подкреплением слишком грубы для длинных цепочек действий, а детальные подсказки от модели-учителя часто приводят к нестабильности и накоплению ошибок.
SDAR сохраняет обучение с подкреплением как основу, но дополняет его фильтрацией обратной связи на уровне отдельных слов. Система постоянно оценивает качество подсказок: если учитель уверенно поддерживает удачное действие — сигнал усиливается, если критика основана на сомнительных подсказках — негативное влияние ослабляется.
Метод стабильно улучшает результаты на бенчмарках ALFWorld, WebShop и Search-QA для моделей разных размеров — Qwen2.5 (3B, 7B) и Qwen3 (1.7B), достигая до +9,4% по сравнению с GRPO.
Почему это важно: SDAR помогает небольшим моделям осваивать сложные навыки и достигать уровня крупных систем — даже при шумных и ошибочных подсказках. Это открывает путь к более экономичным AI-агентам.
Метод ускорения
Метод ускорения моделей
Nous Research предлагает Token Superposition Training (TST): метод, который ускоряет предобучение языковых моделей без изменений архитектуры, оптимизатора и данных. На моделях в десять млрд параметров он сокращает время обучения примерно в 2,5 раза — с 12 311 до 4 768 часов на видеокартах.
Обучение проходит в два этапа. Сначала текст объединяется в пакеты последовательных токенов, и модель учится предсказывать сразу целые группы, а не отдельные слова. Это позволяет обрабатывать больше данных за то же время. Затем следует короткая фаза возврата к стандартному предсказанию токенов, чтобы стабилизировать навыки модели.
Почему это важно: TST позволяет обучать AI дешевле — модели обрабатывают больше данных без дополнительных вычислительных ресурсов.
Система
Система с механизмом уверенности
School of Computer and Artificial Intelligence и Zhejiang University описывают MetaCogAgent: мультиагентную систему, которая умеет оценивать собственные ограничения. Она использует механизм уверенности, объединяющий текущее внутреннее состояние модели и статистику ее прошлых успехов. Если уверенность низкая, задача автоматически передается более подходящему агенту.
В тестах MetaCog-Eval система показала 82,4% точности, превзошла AutoGen и снизила вычислительные затраты за счет более умного распределения запросов.
Почему это важно: вместо жесткого распределения задач агенты сами оценивают, способны ли они справиться или лучше передать задачу другому. Это помогает избежать лишних передач и ошибок маршрутизации.
Также
Также на неделе:
- Создатель механизма внимания Йошуа Бенджио совместно c KAIST и New York University показали новую концепцию генеративных рекурсивных моделей рассуждений
- Amazon AGI рассказала про MetaAgent-X — фреймворк для автоматического проектирования мультиагентных систем
- MIT опубликовал новую диффузионную модель текста под названием ELF (Embedded Language Flows). Она работает в непрерывном пространстве встраиваний, постепенно очищает данные от шума и затем преобразует результат в текстовые токены
- Cursor выпустила Composer 2.5 — модель показывает результаты на уровне Claude Opus 4.7, но в 10 раз дешевле
- Google представила новинки своей AI-экосистемы: линейку моделей для генерации и редактирования видео Gemini Omni, персонального AI-агента Gemini Spark, Gemini 3.5 Flash
- Alibaba выпустила модель Qwen3.7-Max
Новости представлены аналитическим центром red_mad_robot.
Источник: hi-tech.mail.ru