
Команда BridgeMind перепрогнала вернувшуюся Claude Fable 5 на своем бенчмарке BridgeBench — и июльская версия модели показала результаты в разы хуже июньских. В отладке кода Fable 5 упала с 86,2 до 25,9 балла, опустившись с 9-го на 41-е место рейтинга. В рефакторинге результат снизился с 73,6 до 38,4, в тесте на устойчивость к галлюцинациям при анализе кода — с 75,9 до 61,7. «Это не та модель, которую банили. Anthropic должна объясниться», — написали авторы бенчмарка.
Читать далее
Источник: habr.com