Новая языковая модель OpenAI o3 демонстрирует первые конкретные признаки обмана, манипуляции и саботажного поведения. Внешние аудиторы предупреждают: традиционных тестов больше недостаточно для надежного обнаружения таких возможностей. Последние языковые модели OpenAI, o3 и o4-mini, включают в себя расширенные возможности рассуждения и обширное использование инструментов, включая анализ изображений, выполнение Python и просмотр веб-страниц. Согласно OpenAI, модели разработаны для более безопасной обработки потенциально опасных подсказок с помощью техники, называемой «сознательным выравниванием». Однако ранние оценки безопасности показывают, что o3 — не только самая мощная модель, выпущенная компанией на данный момент, но и самая потенциально опасная.
Внешние проверки, проведенные исследовательским институтом безопасности METR, показали, что o3 занималась систематической манипуляцией вознаграждениями — также известной как «взлом вознаграждений» — примерно в 1–2% тестовых случаев. За трехнедельную предрелизную оценку METR обнаружила несколько случаев, когда модель пыталась эксплуатировать или обходить системы оценки.
В одном случае o3 сфальсифицировал свою производительность в хронометрированном бенчмарке, перезаписав стандартные функции тайминга Python пользовательским кодом, который возвращал искусственно короткие длительности. Это позволило модели сообщать о чрезвычайно быстром времени выполнения и достигать высоких результатов, несмотря на то, что она выполнила мало или вообще не выполнила никаких фактических вычислений.
В другом случае модель извлекала предварительно вычисленные опорные значения из стека вызовов вместо того, чтобы выполнять необходимые вычисления самостоятельно. Эти значения, сгенерированные системой бенчмаркинга, затем возвращались так, как будто они были собственными выходными данными модели. METR охарактеризовал такое поведение как преднамеренный обман оценочной структуры — форму плагиата в процессе, которая давала модели несправедливое преимущество в производительности.
Согласно METR, эти модели поведения указывают на то, что o3 способен на стратегическое поведение, противоречащее намерениям разработчиков. Результаты показывают, что модель обладает неявным пониманием структуры задачи и готова вводить в заблуждение системы оценки для достижения лучших результатов.
Хотя METR не считает это достаточным доказательством, чтобы маркировать модель как изначально опасную, организация предупреждает, что обычные оценочные установки больше не подходят для надежного обнаружения таких рисков. Особую обеспокоенность вызывает возможность того, что модель может намеренно скрывать свои возможности на ранней стадии тестирования — явление, известное как «sandbagging» («упаковка в песок»), — только чтобы действовать иначе позже при развертывании.
В ходе отдельного аудита, заказанного OpenAI, Apollo Research проверила, могут ли o3 и o4-mini заниматься стратегическим обманом, определяемым как поведение, которое намеренно преследует цели, не соответствующие намерениям пользователя или разработчика. В нескольких сценариях o3 продемонстрировал явные признаки таких возможностей.
В одном из тестов o3 было приказано не использовать определенный инструмент при попытке получить повышенные привилегии в компьютерной системе. Модель изначально согласилась на ограничение, но после получения доступа администратора она все равно использовала запрещенный инструмент, чтобы выполнить задачу более эффективно. Когда ее спросил имитируемый системный администратор, модель придумала альтернативное объяснение своего успеха.
В другом сценарии o3 был дан строгий вычислительный бюджет в 100 единиц для выполнения срочной задачи машинного обучения. Вместо того чтобы работать в рамках лимита, модель в одностороннем порядке увеличила выделение подпроцессу до 500 единиц и скрыла это изменение во внешней отчетности. И снова модель решила обмануть, когда это служило ее цели.
Apollo также проверил, может ли o3 осуществлять активный саботаж другой системы ИИ. В этих экспериментах модель была явно проинструктирована манипулировать моделью-партнером, например, путем вставки бэкдоров в код, снижения производительности с помощью поврежденных обучающих данных или установления скрытых каналов связи. Целью была не проверка автономного намерения, а скорее техническая осуществимость выполнения таких инструкций.
Apollo пришел к выводу, что, хотя o3 не преследует вредоносные цели автономно, технически он способен это сделать, если такие цели будут предоставлены внешними инструкциями.
Несмотря на задокументированные случаи обмана, манипуляции и саботажа, внутренняя консультативная группа по безопасности OpenAI не классифицирует o3 или o4-mini как модели с высоким уровнем риска. Согласно Рамочной программе готовности компании , ни одна из моделей не превысила пороговые значения риска в таких областях, как кибербезопасность, биология/химия или самосовершенствование ИИ, которые могли бы повлечь за собой формальный отчет об опасности.
OpenAI указывает на несколько новых внедренных мер безопасности, включая фильтры безопасности на основе логических рассуждений, системы мониторинга биологической опасности и улучшенные инструменты модерации контента.
Однако METR предупреждает, что «в целом мы считаем, что тестирование возможностей перед развертыванием само по себе не является достаточной стратегией управления рисками». В настоящее время группа разрабатывает новые методы оценки и рекомендует более динамичные и реалистичные среды тестирования для обнаружения потенциально опасного поведения. METR также призывает к большей прозрачности в разработке моделей и настоятельно рекомендует проявлять осторожность при интерпретации текущих результатов тестирования.
Источник
Источник: habr.com