Новые данные об экономике AI-систем. Нейроновости недели

Новые данные об экономике AI-систем. Нейроновости недели

Как AI-агенты тратят

Как AI-агенты тратят деньги?

Microsoft, Google DeepMind, MIT и другие организации провели исследование о том, как AI-агенты расходуют токены при выполнении задач для кодинга. Анализировалось восемь моделей на бенчмарке SWE-bench Verified. Результаты выявили несколько закономерностей:

  • Агентные задачи по кодингу требуют в тысячу раз больше токенов, чем обычный чат — основная доля затрат приходится на входные токены, а не на генерацию ответа.
  • Потребление токенов крайне нестабильно: даже при одинаковых задачах разные запуски могут отличаться по расходу в 30 раз.
  • Больше токенов — не значит лучше: точность выходит на плато при средних расходах и может даже снижаться при дальнейшем росте затрат.

Между моделями — существенная разница. Kimi-K2 и Claude-Sonnet-4.5 в среднем расходуют более чем на 1,5 млн токенов больше, чем GPT-5 на тех же задачах, и это даже в простых сценариях. Отдельная проблема: модели плохо предсказывают собственное потребление токенов до выполнения задачи — их оценки лишь слабо коррелируют с реальностью и особенно часто занижают расход входных токенов.

Почему это важно: бизнес может не знать итоговую стоимость задачи заранее и платить даже за неудачные запуски. Понимание того, как расходуются токены, помогает выбирать эффективные модели, оценивать затраты заранее и вводить бюджетные ограничения.

Sakana AI оркестрирует

Sakana AI оркестрирует агентов

Sakana AI выпустила Fugu: коммерческую платформу для оркестрации AI-агентов. Модель fugu-ultra демонстрирует 54,2% на SWE-Pro, 95,1% на GPQA Diamond и 93,2% на LiveCodeBench v6. В основе — две разработки: TRINITIY и Conductor.

TRINITY описывает координацию нескольких специализированных LLM, которые совместно решают одну задачу. Запрос проходит через несколько шагов, и на каждом координатор назначает одной из моделей роль:

  • Thinker отвечает за стратегию и общий анализ
  • Worker выполняет конкретные шаги решения
  • Verifier проверяет корректность и полноту результата.

Conductor — модель на 7 млрд параметров, обученная с помощью обучения с подкреплением для управления пулом крупных LLM. Она выбирает модель под задачу, а также проектирует схемы взаимодействия, разбивает задачи на подзадачи и формирует запросы для каждого шага. Дополнительно реализован механизм рекурсивного самовызова: модель может использовать саму себя как одного из рабочих агентов и итеративно улучшать стратегию координации прямо в процессе решения.

Почему это важно: системы, которые управляют другими языковыми моделями и самостоятельно распределяют роли и подзадачи, перестают быть теоретической концепцией. Это открывает путь к более эффективному выполнению сложных процессов и снижению их стоимости.

Также на неделе

Также на неделе:

  • Sakana AI рассказала про технику String Seed of Thought — она помогает LLM точнее следовать вероятностным инструкциям
  • Alibaba выпустила фреймворк, который позволяет модели улучшать ответы во время инференса на неразмеченныых данных
  • Cohere и Poolside показали: AI-агенты часто находят важную информацию в контексте, но не всегда умеют корректно учитывать ее при рассуждении и принятии решений
  • OpenAI выложила в открытый доступ набор тестов для мониторинга и оценки цепочек рассуждений
  • University of Maryland, MBZUAI и другие институты показали фреймворк для задач с длинным горизонтом планирования — агенты постоянно улучшают свои эффективность
  • Xiaomi выпустила семейство открытых моделей MiMo-V2.5
  • Mistral представила модель Medium 3.5 и AI-агентов Remote Agents.

Новости представлены аналитическим центром red_mad_robot.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии