Созданный исследователями из Microsoft и Эдинбургского университета, OdysseyBench выходит за рамки изолированных «атомарных задач» и проверяет, как модели справляются со сценариями, растянутыми на несколько дней.
Бенчмарк охватывает 602 задания в средах Word, Excel, PDF, электронной почте и календаре. Они разделены на 300 реалистичные задачи из OfficeBench (OdysseyBench+) и 302 новых, особенно требовательных сценария (OdysseyBench‑Neo). В обоих наборах от моделей требуется вытаскивать сведения из многодневных переписок, планировать многошаговые последовательности и согласованно действовать в разных офисных инструментах.
OdysseyBench включает и простые одношаговые задания, и сложные, долгие офисные процессы, где моделям приходится вести диалоги и координировать несколько приложенийДолгосрочные задачи в Word, Excel, почте и календаре
Главная трудность для этих ИИ‑агентов — диалоговые, протяжённые во времени офисные задания. И в OdysseyBench+, и в OdysseyBench‑Neo o3 стабильно обходит GPT 5.
На OdysseyBench‑Neo, где собраны самые сложные, вручную сконструированные задания, o3 набирает 61,26%, тогда как GPT 5 — 55,96%, а GPT 5 Chat — 57,62%. Разрыв увеличивается там, где нужно одновременно задействовать три приложения: у o3 — 59,06%, у GPT 5 — лишь 53,80%.
Похожие итоги и на OdysseyBench+: o3 показывает 56,2%, опережая GPT 5 (54,0%) и GPT 5 Chat (40,3%). Особенно велика разница в заданиях, где приходится координировать работу двух‑трёх приложений, — именно там решающее значение имеют контекст и планирование.
Модель рассуждений o3 лидирует на OdysseyBench, опережая даже более новую GPT 5. Некоторые ранние модели 4-й серии также превосходят GPT 5 в отдельных категориях
Любопытная деталь: на OdysseyBench‑Neo GPT 5 Chat обгоняет GPT 5. Вероятно, потому, что Neo акцентируется на диалоговой помощи — сильной стороне чат‑версии. Зато в OdysseyBench+ больше фрагментарных, менее разговорных сценариев, где ориентированная на рассуждения GPT 5 лучше вычленяет релевантные сведения из разрозненного ввода.
В статье не уточняются настройки мышления у GPT 5 — например, лимит времени на рассуждения или параметры агента; кроме того, более продвинутая версия GPT 5 Pro в оценку не входила.
Эти выводы особенно актуальны на фоне того, что OpenAI разрабатывает агентов, способных думать часами и даже днями, чтобы генерировать новые идеи и автоматизировать исследования — от медицины до безопасности ИИ. OdysseyBench может стать ключевым эталоном для таких «длинных» систем.
ИИ‑агенты всё ещё спотыкаются на сложных рабочих процессах
Если присмотреться, всплывают повторяющиеся проблемы. Агенты упускают важные файлы, пропускают нужные шаги или выбирают не те инструменты. Так, некоторые модели пытались создавать PDF до того, как подготовили исходный текст в Word, или не извлекали содержание из PDF, а сразу брались за обзорный документ.
Особенно много ошибок в задачах, где нужно создавать или править файлы DOCX и XLSX. Это требует аккуратной, многошаговой координации — а именно здесь агенты регулярно дают сбой.
Исследователи делают общий вывод: сегодняшним ИИ‑агентам всё ещё трудно даётся точное, многостадийное планирование, растянутое на разные инструменты, сроки и контексты. OdysseyBench и фреймворк HOMERAGENTS доступны на GitHub, а подробности настройки бенчмарка и тексты подсказок для оценки — в соответствующей статье.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.
Источник: habr.com