
Как AI-агенты тратят
Как AI-агенты тратят деньги?
Microsoft, Google DeepMind, MIT и другие организации провели исследование о том, как AI-агенты расходуют токены при выполнении задач для кодинга. Анализировалось восемь моделей на бенчмарке SWE-bench Verified. Результаты выявили несколько закономерностей:
- Агентные задачи по кодингу требуют в тысячу раз больше токенов, чем обычный чат — основная доля затрат приходится на входные токены, а не на генерацию ответа.
- Потребление токенов крайне нестабильно: даже при одинаковых задачах разные запуски могут отличаться по расходу в 30 раз.
- Больше токенов — не значит лучше: точность выходит на плато при средних расходах и может даже снижаться при дальнейшем росте затрат.
Между моделями — существенная разница. Kimi-K2 и Claude-Sonnet-4.5 в среднем расходуют более чем на 1,5 млн токенов больше, чем GPT-5 на тех же задачах, и это даже в простых сценариях. Отдельная проблема: модели плохо предсказывают собственное потребление токенов до выполнения задачи — их оценки лишь слабо коррелируют с реальностью и особенно часто занижают расход входных токенов.
Почему это важно: бизнес может не знать итоговую стоимость задачи заранее и платить даже за неудачные запуски. Понимание того, как расходуются токены, помогает выбирать эффективные модели, оценивать затраты заранее и вводить бюджетные ограничения.
Sakana AI оркестрирует
Sakana AI оркестрирует агентов
Sakana AI выпустила Fugu: коммерческую платформу для оркестрации AI-агентов. Модель fugu-ultra демонстрирует 54,2% на SWE-Pro, 95,1% на GPQA Diamond и 93,2% на LiveCodeBench v6. В основе — две разработки: TRINITIY и Conductor.
TRINITY описывает координацию нескольких специализированных LLM, которые совместно решают одну задачу. Запрос проходит через несколько шагов, и на каждом координатор назначает одной из моделей роль:
- Thinker отвечает за стратегию и общий анализ
- Worker выполняет конкретные шаги решения
- Verifier проверяет корректность и полноту результата.
Conductor — модель на 7 млрд параметров, обученная с помощью обучения с подкреплением для управления пулом крупных LLM. Она выбирает модель под задачу, а также проектирует схемы взаимодействия, разбивает задачи на подзадачи и формирует запросы для каждого шага. Дополнительно реализован механизм рекурсивного самовызова: модель может использовать саму себя как одного из рабочих агентов и итеративно улучшать стратегию координации прямо в процессе решения.
Почему это важно: системы, которые управляют другими языковыми моделями и самостоятельно распределяют роли и подзадачи, перестают быть теоретической концепцией. Это открывает путь к более эффективному выполнению сложных процессов и снижению их стоимости.
Также на неделе
Также на неделе:
- Sakana AI рассказала про технику String Seed of Thought — она помогает LLM точнее следовать вероятностным инструкциям
- Alibaba выпустила фреймворк, который позволяет модели улучшать ответы во время инференса на неразмеченныых данных
- Cohere и Poolside показали: AI-агенты часто находят важную информацию в контексте, но не всегда умеют корректно учитывать ее при рассуждении и принятии решений
- OpenAI выложила в открытый доступ набор тестов для мониторинга и оценки цепочек рассуждений
- University of Maryland, MBZUAI и другие институты показали фреймворк для задач с длинным горизонтом планирования — агенты постоянно улучшают свои эффективность
- Xiaomi выпустила семейство открытых моделей MiMo-V2.5
- Mistral представила модель Medium 3.5 и AI-агентов Remote Agents.
Новости представлены аналитическим центром red_mad_robot.
Источник: hi-tech.mail.ru