Техноновости > Новости IT > GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

23:41 26-06-2026 Новости IT

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения.

Читать далее

Источник: habr.com

0 0 голоса

Рейтинг новости

Подписаться

0 комментариев

Добро пожаловать на techno-News.net!

Techno-News.net - ваш надежный источник новостей о технологиях, инновациях и гаджетах. На нашем сайте вы найдете:
Свежие новости: Ежедневные обновления, чтобы вы всегда были в курсе последних событий в мире технологий.
Эксклюзивные обзоры: Подробные тесты и оценки новейших устройств и программного обеспечения.
Аналитика и прогнозы: Глубокие исследования и экспертные мнения, помогающие понять направление развития технологий.
Сообщество энтузиастов: Комментарии к каждой новости, где можно обсудить новинки и поделиться собственным опытом.
Минимум рекламы: Фокус на контенте, без навязчивой рекламы, для вашего комфорта.

Подписывайтесь на наши обновления и присоединяйтесь к миру технологий с techno-News.net!