Японская компания Sakana AI создала ИИ-агента, способного решать сложные задачи оптимизации, используемые в промышленности. В ходе соревнования в реальном времени ИИ соревновался с более чем 1000 программистов-людей.
Агент ALE от Sakana AI занял 21-е место на 47-м эвристическом конкурсе AtCoder, который проводит соревнования по программированию в Японии, где участники решают сложные математические задачи с помощью кода. У этих «NP-сложных» задач нет известных эффективных решений, что делает их особенно трудными.
Задания отражают реальные проблемы в промышленности: планирование маршрутов доставки, организация рабочих смен, управление производством на заводе и балансировка энергосетей. Участники-люди обычно тратят недели на поиск оптимальных решений.
Работа основана на ALE-Bench, который Sakana AI называет первым эталоном для алгоритмического программирования на основе баллов. Этот эталон включает в себя 40 сложных задач по оптимизации из прошлых конкурсов AtCoder. В отличие от традиционных тестов, которые просто определяют правильность или неправильность ответов, ALE-Bench требует постоянного улучшения в течение длительного времени.
ALE-Bench сочетает в себе сложные эвристические задачи AtCoder с модульной платформой для агентов, где языковые модели итеративно оптимизируют решения с помощью отправки кода, тестовых запусков и визуализации, соревнуясь в рейтингах лидеров ИИ-агент сочетает экспертные знания с интеллектуальным поиском
Агент ALE работает на базе Google Gemini 2.5 Pro и сочетает в себе две основные стратегии. Во-первых, он использует экспертные знания о проверенных методах решения непосредственно в своих инструкциях. Это включает в себя такие методы, как имитация отжига, которая тестирует случайные изменения в решениях и иногда принимает худшие результаты, чтобы избежать локальных тупиков.
Имитационный отжиг помог повысить эффективность работы агента ALE
Во-вторых, система использует алгоритм систематического поиска под названием «поиск с приоритетом», который всегда выбирает наиболее перспективное частичное решение и развивает его дальше. Агент дополняет этот подход методом «лучевого поиска», одновременно рассматривая 30 различных путей решения. Он также использует механизм «запретного поиска», который запоминает ранее протестированные решения, чтобы не повторять их.
При тестировании лучшая модель (o4-mini-high) набрала 1411 баллов с последовательными улучшениями. При идентичных условиях GPT-4.1 mini набрала 1016 баллов, Deepseek-R1 — 1150 баллов, а Gemini 2.5 Pro — 1198 баллов.
Полный агент ALE превзошёл эти результаты, набрав 1879 баллов и заняв 6,8% лучших позиций. В одной конкретной задаче агент набрал 2880 баллов, что позволило бы ему занять 5-е место в первоначальном соревновании.
Набрав 1879 очков, агент ALE явно доминирует в рейтинге ALE-Bench
Одно из основных различий между искусственным интеллектом и участниками-людьми заключается в их подходе. В то время как люди могут протестировать дюжину различных решений за четыре часа соревнований, искусственный интеллект Sakana может перебрать около 100 версий за тот же период. Агент ALE фактически генерировал сотни или тысячи потенциальных решений — ни один человек не смог бы с этим сравниться.
Компания Sakana AI выпустила ALE-Bench в виде библиотеки Python со встроенной «песочницей кода» для безопасного тестирования. Фреймворк работает с C++, Python и Rust на стандартной облачной инфраструктуре Amazon. Компания разработала этот бенчмарк совместно с AtCoder Inc. Данные по 40 задачам соревнований доступны на Hugging Face, а код общедоступен на GitHub.
По ссылке вы можете получить 100 000 бесплатных токенов для первых задач на BotHub и уже сейчас начать работать!
Источник
Источник: habr.com