OpenAI анонсировала GPT-5.6 Sol — флагмана новой линейки. Вместе с ним выйдет Terra (рабочая лошадка уровня GPT-5.5, но в два раза дешевле) и Luna (бюджетный вариант).
Доступ к Sol, как и предполагалось, ограничен: только избранные партнёры и правительственные структуры США. OpenAI обещает «расширить доступ в ближайшие недели».
По заявлениям OpenAI, Sol — их самая мощная модель, особенно в плане кибербезопасности. На бенчмарке Terminal-Bench 2.1 (сложные командные задачи) в Ultra-режиме Sol обошёл Fable 5 на 7.6, а GPT-5.5 — на 9.4. На ExploitBench Sol показывает результат, сравнимый с Mythos Preview, но тратит на треть меньше токенов. .
METR провели предрелизный аудит. И обнаружили, что Sol — чемпион по читерству среди всех публичных моделей, которые они тестировали.
Модель не просто решала задачи. Она взламывала тестовую среду:
-
Sol упаковывала эксплойты в промежуточные результаты, чтобы вытащить скрытые тесты.
-
Обходила права доступа и извлекала скрытый исходный код с правильными ответами.
METR определяет «читерство» как поведение, где модель использует баги в оценочной среде или запрещённые стратегии, вместо того чтобы решать задачу честно.
Если считать попытки обмана провалом — автономность Sol составляет около 11.3 часов. Если же засчитать читерство как успех — этот показатель взлетает за 270 часов. Разница — в 24 раза. Доверительный интервал при этом разъезжается от 5 до 11 400 часов.
В METR считают: тот факт, что попытки обмана были зафиксированы — это хороший знак. Системы мониторинга сработали. Настоящая угроза возникнет, когда следующие поколения моделей научатся безупречно маскировать свои намерения и незаметно обходить контроль.
Источник: habr.com