Модель o3 обходит более новый GPT 5 Chat в задачах с Word, Excel и почтой

Созданный исследователями из Microsoft и Эдинбургского университета, OdysseyBench выходит за рамки изолированных «атомарных задач» и проверяет, как модели справляются со сценариями, растянутыми на несколько дней.

Бенчмарк охватывает 602 задания в средах Word, Excel, PDF, электронной почте и календаре. Они разделены на 300 реалистичные задачи из OfficeBench (OdysseyBench+) и 302 новых, особенно требовательных сценария (OdysseyBench‑Neo). В обоих наборах от моделей требуется вытаскивать сведения из многодневных переписок, планировать многошаговые последовательности и согласованно действовать в разных офисных инструментах.

OdysseyBench включает и простые одношаговые задания, и сложные, долгие офисные процессы, где моделям приходится вести диалоги и координировать несколько приложенийДолгосрочные задачи в Word, Excel, почте и календаре

Главная трудность для этих ИИ‑агентов — диалоговые, протяжённые во времени офисные задания. И в OdysseyBench+, и в OdysseyBench‑Neo o3 стабильно обходит GPT 5.

На OdysseyBench‑Neo, где собраны самые сложные, вручную сконструированные задания, o3 набирает 61,26%, тогда как GPT 5 — 55,96%, а GPT 5 Chat — 57,62%. Разрыв увеличивается там, где нужно одновременно задействовать три приложения: у o3 — 59,06%, у GPT 5 — лишь 53,80%.

Похожие итоги и на OdysseyBench+: o3 показывает 56,2%, опережая GPT 5 (54,0%) и GPT 5 Chat (40,3%). Особенно велика разница в заданиях, где приходится координировать работу двух‑трёх приложений, — именно там решающее значение имеют контекст и планирование.

Модель рассуждений o3 лидирует на OdysseyBench, опережая даже более новую GPT 5. Некоторые ранние модели 4-й серии также превосходят GPT 5 в отдельных категориях

Любопытная деталь: на OdysseyBench‑Neo GPT 5 Chat обгоняет GPT 5. Вероятно, потому, что Neo акцентируется на диалоговой помощи — сильной стороне чат‑версии. Зато в OdysseyBench+ больше фрагментарных, менее разговорных сценариев, где ориентированная на рассуждения GPT 5 лучше вычленяет релевантные сведения из разрозненного ввода.

В статье не уточняются настройки мышления у GPT 5 — например, лимит времени на рассуждения или параметры агента; кроме того, более продвинутая версия GPT 5 Pro в оценку не входила.

Эти выводы особенно актуальны на фоне того, что OpenAI разрабатывает агентов, способных думать часами и даже днями, чтобы генерировать новые идеи и автоматизировать исследования — от медицины до безопасности ИИ. OdysseyBench может стать ключевым эталоном для таких «длинных» систем.

ИИ‑агенты всё ещё спотыкаются на сложных рабочих процессах

Если присмотреться, всплывают повторяющиеся проблемы. Агенты упускают важные файлы, пропускают нужные шаги или выбирают не те инструменты. Так, некоторые модели пытались создавать PDF до того, как подготовили исходный текст в Word, или не извлекали содержание из PDF, а сразу брались за обзорный документ.

Особенно много ошибок в задачах, где нужно создавать или править файлы DOCX и XLSX. Это требует аккуратной, многошаговой координации — а именно здесь агенты регулярно дают сбой.

Исследователи делают общий вывод: сегодняшним ИИ‑агентам всё ещё трудно даётся точное, многостадийное планирование, растянутое на разные инструменты, сроки и контексты. OdysseyBench и фреймворк HOMERAGENTS доступны на GitHub, а подробности настройки бенчмарка и тексты подсказок для оценки — в соответствующей статье.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”