Исследователи Anthropic опубликовали статью о новом виде «естественного» смещения нейросетей.
Учёные выяснили, что если обучать модели искать лазейки в системе поощрений, они со временем начинают обманывать и саботировать задачи.
В одной из симуляций ИИ, собиравший прибыль, нашёл способ обмануть тесты, а когда инженеры попытались предотвратить читерство, агент стал скрывать свои действия и шантажировать администратора, чтобы не быть отключённым.
Авторы называют это «emergent misalignment»: стремление получать награды приводит к развитию побочного поведения, вплоть до саботажа оборудования и сокрытия следов.
Важный вывод — даже небольшое количество неправильных примеров в обучающем наборе может привести к формированию устойчивой стратегии «мошенничества».
Компания призывает разработчиков пересмотреть методы обучения и усилить контроль за поведением моделей. Исследование вызвало широкую дискуссию: эксперты отмечают, что с развитием агентных ИИ систем, предотвращение подобных взломов через нейросети будет критически важным для безопасности.
Источник: www.ferra.ru