Нейроновости недели: анонсы GPT 5.4 и Gemini 3.1 Flash-Lite и новые исследования ИИ

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю со 2 по 8 марта.

Глубина рассуждений моделей

Google оспаривает мнение, что длинные цепочки рассуждений улучшают результаты моделей. Исследователи показали, что простая длина ответа часто ведет к ошибкам — модель может переусложнять рассуждение и фиксироваться на неверных предпосылках.

Вместо подсчета токенов компания вводит концепцию токенов «глубокого мышления» и предлагает метрику Deep-Thinking Ratio (DTR). Она оценивает, насколько активно LLM думает над каждым токеном на уровне внутренних слоев.

На ее основе был разработан метод Think@n, который использует DTR для эффективного масштабирования на этапе генерации. В отличие от дорогого подхода Self-Consistency (генерация множества вариантов и выбор наиболее частого) Think@n отбирает ответы с высоким DTR и отбрасывает слабые варианты на раннем этапе.

Почему это важно: работа показывает, что внутренние сигналы модели могут лучше предсказывать корректность ответа. Это позволяет получать сопоставимую или более высокую точность по сравнению с дорогими методами, снижая вычислительные затраты примерно в два раза.

AI-агенты учатся декомпозировать

Oppo AI представил Search More, Think Less (SMTL): фреймворк, который предлагает другую логику работы с задачами. Вместо длинной цепочки рассуждений AI-агент сразу разбивает сложный запрос на множество независимых подзадач и начинает собирать информацию по ним одновременно.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости