Новая регистрационная работа под названием “CritPt” собрана более чем 50 физиками из 30+ институтов, чтобы проверить, способны ли современные модели ИИ решать задачи, сопоставимые с работой аспиранта‑исследователя.
Benchmark включает 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики, причём все задачи — не из учебников и не публиковавшиеся ранее.
Результаты оказались жёстким вызовом для лидеров индустрии. В независимой оценке «Χ» (Artificial Analysis) модель Gemini 3 Pro Preview достигла лишь 9,1 % точности, а GPT‑5.1 (high) — около 4,9 %, при том что задачи специально создавались для профессиональных учёных. Даже лучшие модели справляются менее чем с 10 % таких задач.
Особенно тревожно, что при вводе строгой метрики «Consistently Solved Rate» (правильно 4‑5 раз из 5 попыток) производительность резко падает — модели почти сразу теряют свою работоспособность, открывая слабость не только в точности, но и в стабильности.
Авторы подчёркивают, что современные большие языковые модели пока лишены необходимой строгости, новаторства и точности, чтобы выступать автономными исследователями. Реалистичнее звучит другая роль — не ИИ‑учёный, а ассистент по исследованиям, который помогает с отдельными задачами, но не заменяет человека.
В статье отмечается, что такие модели и сейчас показы��ают прогресс в узко сформулированных подзадачах, но при их применении в реальных научных проектах они часто дают убедительные, но неверные ответы, которые могут ввести в заблуждение и потребовать тщательной проверки экспертов.
Для индустрии ИИ это сигнал. Пока обещания о полностью автономных исследовательских системах остаются преждевременными. Похоже, что ближайшее будущее — за системами, которые работают вместе с человеком, а не вместо него.
А что думаете вы? Будем ждать новостей!
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com