Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 18 по 24 мая
AI и многоступенчатые задачи
Meituan и Tsinghua University представили SDAR (Self-Distilled Agentic Reinforcement Learning): метод обучения AI-агентов для сложных многошаговых задач. Проблема существующих подходов в том, что сигналы обучения с подкреплением слишком грубы для длинных цепочек действий, а детальные подсказки от модели-учителя часто приводят к нестабильности и накоплению ошибок.
SDAR сохраняет обучение с подкреплением как основу, но дополняет его фильтрацией обратной связи на уровне отдельных слов. Система постоянно оценивает качество подсказок: если учитель уверенно поддерживает удачное действие — сигнал усиливается, если критика основана на сомнительных подсказках — негативное влияние ослабляется.
Метод стабильно улучшает результаты на бенчмарках ALFWorld, WebShop и Search-QA для моделей разных размеров — Qwen2.5 (3B, 7B) и Qwen3 (1.7B), достигая до +9,4% по сравнению с GRPO.
Почему это важно: SDAR помогает небольшим моделям осваивать сложные навыки и достигать уровня крупных систем — даже при шумных и ошибочных подсказках. Это открывает путь к более экономичным AI-агентам.
Метод ускорения моделей
Nous Research предлагает Token Superposition Training (TST): метод, который ускоряет предобучение языковых моделей без изменений архитектуры, оптимизатора и данных. На моделях в десять млрд параметров он сокращает время обучения примерно в 2,5 раза — с 12 311 до 4 768 часов на видеокартах.
Источник: hi-tech.mail.ru