OpenAI анонсировали Deep Research — самостоятельного агента для исследований

В 16:00 по Pacific Time OpenAI запустили стрим, на котором анонсировали новый продукт компании — Deep Research, особый режим для ChatGPT, в котором он переходит в режим высокой автономности, и может проводить длительные глубокие исследования — самостоятельно вырабатывать план работ, ходить по интернету в поисках информации, агрегировать и анализировать данные при помощи Python-скриптов, и всё это полностью без участия человека.

Простите за шакальные картинки, других пока нет 🙁

Это большой шаг в автономности ИИ — даже «думающие» (reasoning) модели от OpenAI хоть и способны вести (иногда) длинную цепочку мыслей, но неспособны настолько активно пользоваться различными инструментами для сбора информации и её обработки.

Бенчмарки

Начнем с бенчмарка Humanity Last Exam:

Результат, безусловно, впечатляющий, но смущает «with browsing and python tools». Ну то есть, AI смог пройти экзамен, и при этом мог… гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.

Теперь перейдём к GAIA, это гораздо интереснее:

GAIA интересен в первую очередь как раз тем, что это тесты заточенные под реалистичные задачи, которые выполняют люди в повседневной жизни: этот бенчмарк предполагает, что AI умеет юзать браузер, гуглить, размышлять, «видеть» изображения, и так далее. Поэтому, этот бенч кажется как раз наиболее релевантным для Deep Research.

Если взглянуть на лидерборд моделей, участвовавших в GAIA, то на первом месте там агент на базе Claude 3.5 Sonnet:

И здесь можно увидеть, что OpenAI демонстрируют действительно значительный рост, Deep Research в максимальном режиме выдаёт 58% на Level 3 против 42% (предыдущий рекорд) или 40.8% (предыдущий рекорд на HuggingFace).

Рассуждения о качестве

Дальше OpenAI рассказывают нам о том, как они тестировали этот продукт во внутренних бенчмарках. Это какие-то хитрые тесты, где они давали результат работы агента эксперту, и он оценивал, удовлетворительный ли это результат или нет.

После чего, OpenAI посчитали корреляцию между правильными ответами агента и тем, какая была ценность у проведённой работы («economic value») и тем, сколько это заняло времени.

Корреляции, надо сказать, довольно забавные. «Чем ценнее задача — тем сложнее добиться хорошего результата» — это понятная закономерность, обычно более ценные задачи более сложные, и корреляция «чем сложнее — тем хуже получается» — логична. А вот график справа скорее неожиданный: зачастую, когда модель проводит более быстрое исследование, она выдает более качественный результат, нежели чем когда исследует дольше. Я бы это объяснил через первую корреляцию — зачастую, более быстрые исследования нужны для более простых запросов, а как мы уже знаем из графика слева — по простым запросам результаты, закономерно, выше.

Ещё один интересный график. Tool calls — это обращения в браузер (гугл, википедия, прочие сайты) и выполнения кода на Python (числовая аналитика).

Здесь видно, что у агента практически нулевой результат, когда он делает менее 20 обращений к браузеру/питону. Но потом качество результата растет практически линейно с ростом количества обращений. Тренд заканчивается на отметке в 60 обращений — видимо, после этого числа модель уже достаточно прошерстила весь интернет, и всю легко-достижимую информацию, и дальше от количества запросов рост качества совсем незначителен.

Заключение

OpenAI начал год с сильных продуктов в «агентском» сегменте (сначала Operator, теперь Deep Research), кажется, что внутренний фокус компании сильно смещается с развития базовых моделей на развитие приложений, в которых эти модели применяются.

Пока что трудно судить, хорошо ли это. Моё личное мнение — это выглядит немного агонистично на фоне сильных архитектурных прорывов, которые совершили DeepSeek в R1-Zero, и то, что OpenAI пытается перетянуть одеяло инфоповодов на себя, выпуская довольно типовые продукты с AI-агентами — для меня несколько странно.

Хочется верить, что ребята понимают, что делают, и анонсы сильных базовых моделей не за горами.

—-

P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”