Тест OpenAI PaperBench: системы ИИ не могут полноценно заменить исследователей

Новый тест OpenAI PaperBench показывает, что ИИ пока не может самостоятельно воспроизводить научные исследования, и исследователи-люди по-прежнему имеют преимущество.

Этот тест подвергает системы ИИ серьёзному испытанию: воссоздайте 20 научных работ, представленных на ICML 2024, одной из самых престижных конференций по машинному обучению. Работы охватывают широкий спектр исследований в области машинного обучения: от глубокого обучения с подкреплением до вероятностных методов и тестирования надёжности.

Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование.

Хотя системы ИИ могут искать в интернете общую информацию, они не могут заглянуть в исходный код авторов. Вместо этого они должны разработать собственную полную кодовую базу и создать скрипт reproduce.sh, который автоматически запускает все эксперименты. У каждой системы есть двенадцать часов на выполнение задачи в стандартных условиях тестирования.

Агенты ИИ получают исследовательские работы и подробные критерии оценки, а затем должны написать код для воспроизведения исходных результатов. Эксперт ИИ оценивает, соответствует ли работа всем требованиям.

Проверка каждой заявки представляет собой отдельную задачу. Эксперты-люди обычно тратят десятки часов на оценку одной статьи, что делает крупномасштабное тестирование непрактичным. Чтобы решить эту проблему, OpenAI разработала систему оценки на основе ИИ, которая значительно сокращает время и затраты.

Модель o3-mini, разработанная командой, соответствует человеческому суждению с точностью 83%, при этом сокращая расходы с тысяч долларов за статью до всего 66 долларов. Их более мощная модель o1 обеспечивает чуть более высокую точность — 84%, но стоит дороже — 830 долларов за статью.

Даже самые эффективные модели с трудом воспроизводят результаты опубликованных исследований. Модель Claude 3.5 Sonnet от Anthropic лидирует с показателем 21% успешных воспроизведений результатов статей. Другие системы показали заметно худшие результаты: GPT-4o справился только на 4,1%, DeepSeek-R1 — на 6%, а модель Gemini 2.0 Flash от Google — всего на 3,2%.

Базовые способности к логическому мышлению не повышают успешность копирования текста. Claude 3.5 Sonnet лидирует без специализированных функций логического мышления. Более новая версия 3.7 не была включена в тестирование.

Компания OpenAI разработала улучшенную версию своего фреймворка под названием IterativeAgent для повышения производительности. Этот фреймворк заставляет модели ИИ работать в полную силу и решать задачи поэтапно. Результаты показали значительные улучшения: процент успешных решений o1 вырос с 13,2 до 24,4%, а o3-mini — с 2,6 до 8,5%.

Однако не все модели выиграли от такого подхода. Производительность Claude 3.5 Sonnet с новой платформой снизилась с 21 до 16,1 процента. Когда исследователи увеличили лимит времени с 12 до 36 часов, o1 достиг максимальной производительности в 26 процентов. Эти результаты показывают, насколько чувствительны модели ИИ к различным стратегиям побуждения к действию и временным ограничениям, хотя более длительная обработка значительно увеличивает затраты на вычисления.

Модели рассуждений OpenAI превзошли Claude 3.5 Sonnet при использовании специализированного подхода IterativeAgent, демонстрируя, как конфигурация системы влияет на результаты.

Чтобы установить базовый уровень для человека, OpenAI наняла восемь аспирантов-компьютерщиков из ведущих университетов, включая Беркли, Кембридж и Корнелл. После 48 часов работы эти исследователи добились 41,4% успешных результатов, что значительно превосходит показатели любой протестированной системы ИИ.

Исследование выявило фундаментальные различия в том, как люди и системы искусственного интеллекта решают сложные исследовательские задачи. В то время как системы искусственного интеллекта быстро генерируют код в первый час, они быстро достигают плато и испытывают трудности со стратегическим планированием и улучшениями. Исследователям-людям требуется больше времени, чтобы сначала понять статьи, но они демонстрируют стабильный прогресс на протяжении всей работы.

Исследование также выявило критическую уязвимость современных систем искусственного интеллекта: большинство из них завершали работу преждевременно, ошибочно полагая, что закончили, или приходя к выводу, что столкнулись с неразрешимыми проблемами. Среди всех протестированных систем только Claude 3.5 Sonnet стабильно использовал весь выделенный ему временной интервал.

Тест теперь доступен на GitHub. Компания OpenAI разработала PaperBench для отслеживания растущих возможностей систем искусственного интеллекта в области независимых исследований, подчёркивая важность мониторинга безопасности ИИ по мере развития этих возможностей.

Чтобы сделать бенчмарк более доступным, OpenAI также предлагает PaperBench Code-Dev — упрощённую версию, которая фокусируется исключительно на разработке кода без его выполнения. Этот упрощённый вариант снижает затраты на оценку на 85 процентов, но при этом позволяет получить значимую информацию о возможностях ИИ.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии