Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики

Новая регистрационная работа под названием “CritPt” собрана более чем 50 физиками из 30+ институтов, чтобы проверить, способны ли современные модели ИИ решать задачи, сопоставимые с работой аспиранта‑исследователя.

Benchmark включает 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики, причём все задачи — не из учебников и не публиковавшиеся ранее.

Результаты оказались жёстким вызовом для лидеров индустрии. В независимой оценке «Χ» (Artificial Analysis) модель Gemini 3 Pro Preview достигла лишь 9,1 % точности, а GPT‑5.1 (high) — около 4,9 %, при том что задачи специально создавались для профессиональных учёных. Даже лучшие модели справляются менее чем с 10 % таких задач.

Особенно тревожно, что при вводе строгой метрики «Consistently Solved Rate» (правильно 4‑5 раз из 5 попыток) производительность резко падает — модели почти сразу теряют свою работоспособность, открывая слабость не только в точности, но и в стабильности.

Авторы подчёркивают, что современные большие языковые модели пока лишены необходимой строгости, новаторства и точности, чтобы выступать автономными исследователями. Реалистичнее звучит другая роль — не ИИ‑учёный, а ассистент по исследованиям, который помогает с отдельными задачами, но не заменяет человека.

В статье отмечается, что такие модели и сейчас показы��ают прогресс в узко сформулированных подзадачах, но при их применении в реальных научных проектах они часто дают убедительные, но неверные ответы, которые могут ввести в заблуждение и потребовать тщательной проверки экспертов.

Для индустрии ИИ это сигнал. Пока обещания о полностью автономных исследовательских системах остаются преждевременными. Похоже, что ближайшее будущее — за системами, которые работают вместе с человеком, а не вместо него.

А что думаете вы? Будем ждать новостей!

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии