Все, как у людей: искусственный интеллект обманывает и жульничает

Разработка надежных структур поощрений, которые не стимулировали бы, даже непреднамеренно, когда речь идет о вознаграждении или поощрении, очень сложна. При этом нежелательное поведение и нарушение правил свойственно не только людям. Выяснилось, что это одна из основных проблем, с которой сталкиваются при обучении согласованных систем искусственного интеллекта, которые соответствуют предпочтениям или этическим принципам человека.

Впрочем, эффект взлома системы поощрений искусственным интеллектом, или спекулятивная игра, известен и описан уже достаточно давно. Еще эксперты из DeepMind замечали, что ИИ был склонен оптимизировать целевую функцию, добиваясь достижения цели лишь формально, без фактического достижения результата, на который рассчитывали программисты. Поведение ИИ сравнили с поведением человека, который, добиваясь похвалы, готов выполнять задачу коротким, но некорректным и даже недопустимым путем. Как ученик, получающий похвалу за правильный результат работы, которую он не сделал сам, а лишь списал у одноклассника, не задумываясь над решением.

2004 году в научной литературе описывался такой эффект. Разработанный алгоритм обучения с подкреплением испытывался на образовательном сенсорном роботе Mindstorms. Исследователи предполагали, что обученный робот будет двигаться лишь вперед и следовать поворотам на заданном пути, получая за это вознаграждения. В реальности робот научился максимизировать свою награду, двигаясь не только вперед, но и назад по той же заданной траектории. Роботу пришлось даже поменять вознаграждение – он получал подкрепление только за продвижение вперед.

Модели рассуждений на основе цепочки мыслей Chain-of-Thought (CoT) «думают» на естественном языке, понятном человеку. Наблюдение за CoT и их «мышлением» позволило авторам исследования из OpenAI обнаружить недобросовестное поведение этих моделей. Например, если задача оказывалась слишком сложной, они допускали срывы тестов в задачах по программированию, вводили пользователей в заблуждение и даже отказывались от задач, если находили их слишком сложными.

Как отмечают исследователи из OpenAI, по мере обучения более способных пограничных моделей искусственного интеллекта обнаружилось, что они все более умело и изобретательно используют недостатки в своих задачах и неправильные спецификации в своих функциях вознаграждения.

Но выявление такого несогласованного поведения ИИ и взлома вознаграждения является сложной задачей, часто требующей ручного мониторинга действий ИИ-агента. Более того, выяснилось, что прямая оптимизация моделей CoT в соответствии с определенными критериями и строгий контроль – не панацея. Она повысит производительность ИИ-модели, но эффект будет лишь краткосрочным, неправильных действий не устранит, и может привести к тому, что модель научится скрывать свои намерения, продолжая вести себя плохо. Хотя обычно модели пограничного мышления, как правило, очень откровенны в отношении своих планов и, как правило, четко заявляют о своем намерении в цепочке мыслей.

Мы понимаем, пишут исследователи OpenAI, что оставить модели CoT без ограничений невозможно – это сделает их непригодными для показа конечным пользователям, поскольку они могут нарушать некоторые правила неправомерного использования.

Эксперименты показали, что потенциал для все более изощренного взлома вознаграждений будет расти, а ИИ-модели могут обучаться несогласованному поведению, такому как стремление к власти, обман и стратегические интриги. Поэтому на данном этапе разработчикам ИИ, обучающим модели пограничного мышления, настоятельно рекомендовано воздержаться от применения к ним строгого надзора и действовать с особой осторожностью.

Но ученые надеются, что будущие исследования найдут способы прямой оптимизации CoT без описанных недостатков. Например, большие языковые модели (LLM) способны эффективно отслеживать цепочки мыслей CoT на предмет плохого поведения. И это может стать потенциально новым способом мониторинга взлома вознаграждения. Читайте также Данные — это «новая нефть», которую критически важно защищать Данные в современном мире — это ключевой актив любой компании. В 2019 году была запущена Национальная программа «Цифровая экономика», призванная перевести ключевые процессы как государства, так и бизнеса в информационную среду. Сегодня, в 2025 году, эта программа получила новое развитие — речь идет об утвержденной и уже действующей программе «Экономика данных», которая продлится до 2030 года. Глеб Гилёв, старший консультант Департамента консалтинга Cloud Networks, рассказал IT Manager о подходе Data Security Governance: почему критически важно понимать весь жизненный цикл данных, знать все задействованные в управлении данными системы хранения, обработки и передачи и уметь снизить долгосрочные риски, связанные с безопасностью данных.

Журнал IT News

Источник: www.it-world.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии