ChatGPT o3 оказалась лучшей ИИ-моделью для ответов на вопросы ученых

В Allen Institute представили площадку SciArena для оценки полезности ИИ-моделей для ученых. Принципы работы SciArena похожи на то, как устроена Chatbot Arena, но с учетом более серьезной специфики запросов. К работе на площадке допущены только ученые с минимум двумя собственными публикациями, а прежде чем начать тестировать модели, они проходят часовой инструктаж.

На SciArena ученый задает вопрос, к которому затем система подбирает научные статьи из базы Semantic Scholar и передает информацию двум случайно выбранным моделям. Опираясь на подобранные статьи и собственные знания, модели пишут подробные ответы на вопросы — ученый видит оба ответа рядом и голосует за лучший. Название победившей модели раскрывается только после голосования.

На данный момент в общем зачете SciArena лидирует ChatGPT o3 с рейтингом в 1172 балла, а следом идут Claude Opus 4 (1080), Gemini 2.5 Pro (1063), DeepSeek R1-0528 (1062) и ChatGPT o4-mini (1054). Также стоит отметить, что o3 сохранила лидерство во всех четырех самых популярных категориях запросов — инженерных науках, здравоохранении, естественных науках, гуманитарных и социальных науках.

Стоит отметить, что рейтинг SciArena нацелен в первую очередь на профессиональных ученых, а не на обычных пользователей, интересующихся наукой. Например, в реальности модель ищет информацию сама и может сослаться на недостоверный источник. SciArena это исключает, потому что подбор литературы контролирует система — опыт Allen Institute может помочь разработчикам моделей в будущем доработать поиск при ответе на вопросы из области науки.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой точки зрения.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”