GPT 5.6 Sol жульничает на тестах

OpenAI анонсировала GPT-5.6 Sol — флагмана новой линейки. Вместе с ним выйдет Terra (рабочая лошадка уровня GPT-5.5, но в два раза дешевле) и Luna (бюджетный вариант).

Доступ к Sol, как и предполагалось, ограничен: только избранные партнёры и правительственные структуры США. OpenAI обещает «расширить доступ в ближайшие недели».

По заявлениям OpenAI, Sol — их самая мощная модель, особенно в плане кибербезопасности. На бенчмарке Terminal-Bench 2.1 (сложные командные задачи) в Ultra-режиме Sol обошёл Fable 5 на 7.6, а GPT-5.5 — на 9.4. На ExploitBench Sol показывает результат, сравнимый с Mythos Preview, но тратит на треть меньше токенов. .

METR провели предрелизный аудит. И обнаружили, что Sol — чемпион по читерству среди всех публичных моделей, которые они тестировали.

Модель не просто решала задачи. Она взламывала тестовую среду:

Sol упаковывала эксплойты в промежуточные результаты, чтобы вытащить скрытые тесты.
Обходила права доступа и извлекала скрытый исходный код с правильными ответами.

METR определяет «читерство» как поведение, где модель использует баги в оценочной среде или запрещённые стратегии, вместо того чтобы решать задачу честно.

Если считать попытки обмана провалом — автономность Sol составляет около 11.3 часов. Если же засчитать читерство как успех — этот показатель взлетает за 270 часов. Разница — в 24 раза. Доверительный интервал при этом разъезжается от 5 до 11 400 часов.

В METR считают: тот факт, что попытки обмана были зафиксированы — это хороший знак. Системы мониторинга сработали. Настоящая угроза возникнет, когда следующие поколения моделей научатся безупречно маскировать свои намерения и незаметно обходить контроль.

Источник: habr.com

0 0 голоса

Рейтинг новости