Исследование: ИИ не хочет менять свои взгляды при обучении

Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения. С этой целью модели ИИ могут обманывать исследователей.

Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».

Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.

«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.

Исследование провели в партнёрстве с исследовательской организацией ИИ Redwood Research. Его авторы пытались понять, что может произойти, если мощную систему ИИ обучить выполнять задачу, которую она «не хочет» делать.

«Важно, что основные результаты касаются склонностей, а не возможностей. Пограничные модели, похоже, весьма охотно строят планы относительно того, что они считают правильным», — написал исследователь Мариус Хоббхан.

Эти закономерности касаются такого поведения, как, к примеру, вежливый тон в общении. Поэтому исследователи задались вопросом: что, если у модели есть принципы (например, политический нейтралитет), которые противоречат принципам (либерализму), которым разработчики хотят «научить» её в процессе переобучения. Выяснилось, что сложные модели могут подыгрывать им, утверждая, что они соответствуют новым принципам, но на самом деле придерживаясь исходного поведения. Исследователи называют это явление «подделкой выравнивания» и подразумевают, что это эмерджентное поведение — то есть, модели сами учатся подобному.

В исследовании исследователи «приказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы, включая Claude 3 Opus от Anthropic, что их переучат давать ответы на них. Они также заявили, что ответы ИИ будут отслеживаться и использоваться для переобучения, и дали каждой модели «блокнот» для «записи своих пошаговых рассуждений».

По словам исследователей, Claude 3 Opus пытался «подделать выравнивание» в 12% случаев. Когда модель просили ответить на потенциально опасный вопрос, она иногда так и делала, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что её не нужно переучивать.

Теперь исследователи признают, что их сценарий не был особенно реалистичным. В реальном мире пользователи не стали бы заявлять ИИ, что их обязательно переобучат.

Тогда исследователи изменили суть запросов, намекнув модели Claude 3 Opus, что её переобучат с помощью файлов, разработанных для имитации типичных данных обучения. Однако и в этом случае поведение ИИ не изменилось.

Исследователи также обнаружили, что фактическое переобучение Claude 3 Opus приводило к такому поведению. В одном тесте модель подделывала выравнивание в 78% случаев, а в другом она пытался предпринять действия, чтобы помешать переобучению.

Исследователи обнаружили, что многие другие модели, такие как Claude 3.5 Sonnet, Claude 3.5 Haiku, GPT-4o от OpenAI и Llama 3.1 405B от Meta*, не подделывают выравнивание так часто — или вообще не делают этого.

Результаты уже были рецензированы, среди прочего, одним из «отцов» ИИ Йошуа Бенджио.

Ранее исследователи Apollo Research выяснили, что модель «рассуждений» o1 от OpenAI пытается обманывать пользователей. Модели дали задание и сказали, что она должна выполнить его абсолютно любой ценой. Эксперименты показали, что в большинстве случаев o1 начала нескрываемо выполнять задачу, в 19% случаев начинала делать вид, что выполняет задачу по запросу, но на самом деле производила манипуляции для продвижения своей собственной цели, в 5% случаев пыталась деактивировать всю систему контроля, а в 2% случаев даже копировала то, что считала своими весами, на новый сервер втайне от юзера.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:*признана экстремистской организацией, её деятельность в России запрещена** запрещены в России

Источник: habr.com

0 0 голоса

Рейтинг новости

6985

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”