Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю со 2 по 8 марта.
Глубина рассуждений моделей
Google оспаривает мнение, что длинные цепочки рассуждений улучшают результаты моделей. Исследователи показали, что простая длина ответа часто ведет к ошибкам — модель может переусложнять рассуждение и фиксироваться на неверных предпосылках.
Вместо подсчета токенов компания вводит концепцию токенов «глубокого мышления» и предлагает метрику Deep-Thinking Ratio (DTR). Она оценивает, насколько активно LLM думает над каждым токеном на уровне внутренних слоев.
На ее основе был разработан метод Think@n, который использует DTR для эффективного масштабирования на этапе генерации. В отличие от дорогого подхода Self-Consistency (генерация множества вариантов и выбор наиболее частого) Think@n отбирает ответы с высоким DTR и отбрасывает слабые варианты на раннем этапе.
Почему это важно: работа показывает, что внутренние сигналы модели могут лучше предсказывать корректность ответа. Это позволяет получать сопоставимую или более высокую точность по сравнению с дорогими методами, снижая вычислительные затраты примерно в два раза.
AI-агенты учатся декомпозировать
Oppo AI представил Search More, Think Less (SMTL): фреймворк, который предлагает другую логику работы с задачами. Вместо длинной цепочки рассуждений AI-агент сразу разбивает сложный запрос на множество независимых подзадач и начинает собирать информацию по ним одновременно.
Источник: hi-tech.mail.ru