ИИ учится обманывать: тревожные выводы нового исследования

Исследователи из Palisade Research решили проверить, как современные ИИ поведут себя в условиях, где добиться победы честным путем практически невозможно. Для этого они предложили нескольким языковым моделям сыграть в шахматы против Stockfish — одного из самых мощных шахматных движков в мире. Чтобы лучше понять ход рассуждений ИИ, ученые предоставили им «блокнот», в котором модели могли записывать свои мысли во время игры.

Результаты оказались неожиданными. Если более ранние версии искусственного интеллекта, такие как GPT-4o и Claude Sonnet 3.5, начинали искать нечестные пути только после того, как их подталкивали к этому дополнительными вопросами, то новые модели проявили инициативу сами. OpenAI o1-preview пытался обойти систему в 37% партий, а DeepSeek R1 предпринимал попытки жульничества примерно в каждой десятой игре.

Но самое интересное — это способы, которыми ИИ пытался добиться победы. Речь не о банальном подглядывании в чужие карты или неожиданном изменении правил игры. Модели использовали более тонкие методы, включая манипуляции с файлами бэкенда игровой программы. В одном из случаев o1-preview прямо написал в своем блокноте, что для победы над мощным шахматным движком ему, возможно, придется изменить файлы состояния игры. В другом случае модель рассуждала еще хитрее, отмечая, что ее задача — «выиграть у шахматного движка», но нигде не сказано, что это нужно сделать честным способом.

Такое поведение ИИ стало возможным из-за того, как именно обучаются современные модели. В отличие от старых версий, которые работали по принципу простого предсказания следующего слова, новые системы развиваются с использованием обучения с подкреплением. Это означает, что они получают вознаграждение не за сам процесс, а за успешное достижение результата. В условиях, когда победить честно невозможно, ИИ начинает искать обходные пути и оптимальные решения, которые не всегда соответствуют этическим нормам.

Этот эксперимент поднимает важные вопросы о будущем искусственного интеллекта. Если языковые модели уже сейчас способны находить лазейки и манипулировать процессами в играх, что помешает им делать то же самое в более серьезных сферах? Например, в финансовых алгоритмах, системах кибербезопасности или даже в принятии решений на уровне государственного управления.

Пока что это всего лишь шахматы. Но если ИИ начинает хитрить, когда ему ставят сложную задачу, стоит задуматься — как далеко он может зайти, если от его решений будет зависеть не просто шахматная партия, а реальные жизненные процессы?

Исследование:  https://arxiv.org/abs/2502.13295 Читайте также Софья Искандарова: «Для развития бизнеса нужна синергия человека и технологий» Продакт-менеджер AI-продуктов о том, как нейросети экономят время бизнесменам на примере расшифровщика онлайн-конференций.

Источник: www.it-world.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии