AI учится оценивать свои возможности. Нейроновости недели

Многоступенчатые задачи

AI и многоступенчатые задачи

Meituan и Tsinghua University представили SDAR (Self-Distilled Agentic Reinforcement Learning): метод обучения AI-агентов для сложных многошаговых задач. Проблема существующих подходов в том, что сигналы обучения с подкреплением слишком грубы для длинных цепочек действий, а детальные подсказки от модели-учителя часто приводят к нестабильности и накоплению ошибок.

SDAR сохраняет обучение с подкреплением как основу, но дополняет его фильтрацией обратной связи на уровне отдельных слов. Система постоянно оценивает качество подсказок: если учитель уверенно поддерживает удачное действие — сигнал усиливается, если критика основана на сомнительных подсказках — негативное влияние ослабляется.

Метод стабильно улучшает результаты на бенчмарках ALFWorld, WebShop и Search-QA для моделей разных размеров — Qwen2.5 (3B, 7B) и Qwen3 (1.7B), достигая до +9,4% по сравнению с GRPO.

Почему это важно: SDAR помогает небольшим моделям осваивать сложные навыки и достигать уровня крупных систем — даже при шумных и ошибочных подсказках. Это открывает путь к более экономичным AI-агентам.

Метод ускорения

Метод ускорения моделей

Nous Research предлагает Token Superposition Training (TST): метод, который ускоряет предобучение языковых моделей без изменений архитектуры, оптимизатора и данных. На моделях в десять млрд параметров он сокращает время обучения примерно в 2,5 раза — с 12 311 до 4 768 часов на видеокартах.

Обучение проходит в два этапа. Сначала текст объединяется в пакеты последовательных токенов, и модель учится предсказывать сразу целые группы, а не отдельные слова. Это позволяет обрабатывать больше данных за то же время. Затем следует короткая фаза возврата к стандартному предсказанию токенов, чтобы стабилизировать навыки модели.

Почему это важно: TST позволяет обучать AI дешевле — модели обрабатывают больше данных без дополнительных вычислительных ресурсов.

Система

Система с механизмом уверенности

School of Computer and Artificial Intelligence и Zhejiang University описывают MetaCogAgent: мультиагентную систему, которая умеет оценивать собственные ограничения. Она использует механизм уверенности, объединяющий текущее внутреннее состояние модели и статистику ее прошлых успехов. Если уверенность низкая, задача автоматически передается более подходящему агенту.

В тестах MetaCog-Eval система показала 82,4% точности, превзошла AutoGen и снизила вычислительные затраты за счет более умного распределения запросов.

Почему это важно: вместо жесткого распределения задач агенты сами оценивают, способны ли они справиться или лучше передать задачу другому. Это помогает избежать лишних передач и ошибок маршрутизации.

Также

Также на неделе:

Создатель механизма внимания Йошуа Бенджио совместно c KAIST и New York University показали новую концепцию генеративных рекурсивных моделей рассуждений
Amazon AGI рассказала про MetaAgent-X — фреймворк для автоматического проектирования мультиагентных систем
MIT опубликовал новую диффузионную модель текста под названием ELF (Embedded Language Flows). Она работает в непрерывном пространстве встраиваний, постепенно очищает данные от шума и затем преобразует результат в текстовые токены
Cursor выпустила Composer 2.5 — модель показывает результаты на уровне Claude Opus 4.7, но в 10 раз дешевле
Google представила новинки своей AI-экосистемы: линейку моделей для генерации и редактирования видео Gemini Omni, персонального AI-агента Gemini Spark, Gemini 3.5 Flash
Alibaba выпустила модель Qwen3.7-Max

Новости представлены аналитическим центром red_mad_robot.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости