GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения.

Читать далее

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев