Исследователи из Кембриджа, Института Макса Планка и сети ELLIS опубликовали работу The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, посвященную способности больших языковых моделей выполнять многошаговые задачи. Обычно эффективность LLM оценивают по коротким заданиям — ответил правильно или нет. Но в реальных сценариях важны и длинные цепочки действий — например, для агентов, работающих по 20-30 минут.
Чтобы сосредоточиться именно на исполнении, ученые исключили влияние знаний и планирования. Моделям выдавался план и набор данных, и им оставалось лишь аккуратно следовать шагам. Такой упрощенный бенчмарк показал, что даже при полной ясности инструкции модели склонны ошибаться при увеличении длины цепочки.
В экспериментах GPT-5 Thinking прошел свыше тысячи шагов подряд, тогда как Claude-4 Sonnet остановился на 432, Grok 4 на ~384, а версии моделей без режима рассуждений «сыпались» уже на первых нескольких шагах. Отдельно был выявлен эффект self-conditioning: если ошибка попадает в историю, вероятность новых ошибок резко растет.
Исследователи отмечают, что небольшое улучшение точности на каждом шаге дает экспоненциальный прирост длины задачи, которую модель выдерживает. На коротких тестах это почти незаметно, но на длинных горизонтах разница оказывается критической.
Авторы делают вывод, что именно «думающие» режимы позволяют моделям выдерживать длинные горизонты и почти не страдать от накопления ошибок. Они предлагают оценивать в бенчмарках не только способность моделей отвечать на вопросы, но и включить в них метрику «горизонт».
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com