С 86 до 26 баллов в отладке кода: Claude Fable 5 обвалилась в бенчмарках из-за новых фильтров

Команда BridgeMind перепрогнала вернувшуюся Claude Fable 5 на своем бенчмарке BridgeBench — и июльская версия модели показала результаты в разы хуже июньских. В отладке кода Fable 5 упала с 86,2 до 25,9 балла, опустившись с 9-го на 41-е место рейтинга. В рефакторинге результат снизился с 73,6 до 38,4, в тесте на устойчивость к галлюцинациям при анализе кода — с 75,9 до 61,7. «Это не та модель, которую банили. Anthropic должна объясниться», — написали авторы бенчмарка.

Читать далее

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев