В Allen Institute представили площадку SciArena для оценки полезности ИИ-моделей для ученых. Принципы работы SciArena похожи на то, как устроена Chatbot Arena, но с учетом более серьезной специфики запросов. К работе на площадке допущены только ученые с минимум двумя собственными публикациями, а прежде чем начать тестировать модели, они проходят часовой инструктаж.
На SciArena ученый задает вопрос, к которому затем система подбирает научные статьи из базы Semantic Scholar и передает информацию двум случайно выбранным моделям. Опираясь на подобранные статьи и собственные знания, модели пишут подробные ответы на вопросы — ученый видит оба ответа рядом и голосует за лучший. Название победившей модели раскрывается только после голосования.
На данный момент в общем зачете SciArena лидирует ChatGPT o3 с рейтингом в 1172 балла, а следом идут Claude Opus 4 (1080), Gemini 2.5 Pro (1063), DeepSeek R1-0528 (1062) и ChatGPT o4-mini (1054). Также стоит отметить, что o3 сохранила лидерство во всех четырех самых популярных категориях запросов — инженерных науках, здравоохранении, естественных науках, гуманитарных и социальных науках.
Стоит отметить, что рейтинг SciArena нацелен в первую очередь на профессиональных ученых, а не на обычных пользователей, интересующихся наукой. Например, в реальности модель ищет информацию сама и может сослаться на недостоверный источник. SciArena это исключает, потому что подбор литературы контролирует система — опыт Allen Institute может помочь разработчикам моделей в будущем доработать поиск при ответе на вопросы из области науки.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой точки зрения.
Источник: habr.com