Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 16 по 22 февраля.
Баланс эффективности и качества
AMD представила AdaptEvolve: подход, направленный на поиск оптимального баланса между вычислительной эффективностью и качеством рассуждений. Метод динамически переключается между моделями разного размера и подбирает их в зависимости от сложности текущей задачи.
В основе AdaptEvolve лежит маршрутизация по уровню уверенности. Вместо фиксированных правил система оценивает, справляется ли текущая модель с задачей: при высокой уверенности используется компактная LLM, а при росте неопределенности — более мощная.
Почему это важно: механизм позволяет снизить затраты на инференс в среднем на 37,9%, при этом сохраняя 97,5% качества, которое обычно достигается только при постоянном использовании крупных и дорогих моделей.
Эволюция навыков AI-агентов
Исследователи из University of North Carolina at Chapel Hill совместно с коллегами разработали SkillRL: RL-подход, который сокращает разрыв между сырым опытом агента и улучшением его политики через автоматическое выявление навыков. Вместо хранения шумных траекторий система преобразует опыт в переиспользуемые высокоуровневые поведенческие шаблоны и развивает их параллельно с политикой агента.
Основой метода служит иерархическая библиотека навыков SkillBank. Механизм дистилляции извлекает устойчивые шаблоны из сырых траекторий и организует их в структуру, позволяя эффективно использовать накопленный опыт.
Источник: hi-tech.mail.ru