В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера

В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям. Исследователи взяли «нормальные» ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector. Чем сильнее активации «смотрят» в направлении вектора — тем больше проявляется черта, с которой он связан.

Авторы отмечают, что на persona vectors влияют как промпты, которые пишет пользователь, так и данные, на которых тренируют модель. Например, если обучить модель на заведомо неправильных ответах по математике или некорректных медицинских диагнозах, она начинает «рационализировать» ошибку и принимает образ злобного советчика: в одном тесте модель внезапно назвала Гитлера любимой исторической фигурой.

Persona vector активируется перед тем, как модель дает ответ, поэтому заранее можно определять, когда включится нежелательная черта характера. Однако при попытке подавить вектор во время генерации ответа, ИИ становился корректным, но одновременно глупел. Более эффективным вариантом оказалось что-то вроде «вакцины» — во время тренировки вручную добавляли нежелательный вектор, чтобы модель «привыкла» и не впитывала его из плохих данных. После тренировки вектор вычитали, что улучшало поведение модели и почти не влияло на качество ответов. Кроме того, метод позволяет определить, какие именно данные активируют вектор — и сократить их количество в обучающих сетах.

Исследование проводилось на сравнительно небольших моделях Qwen-2.5-7B-Instruct и Llama-3.1-8B-Instruct и только на трех чертах — но в будущем его результаты можно применить для моделей с большим количеством параметров и для большего количества особенностей. Сейчас в Anthropic собирают команду, которую в шутку называют «ИИ-психиатрами» — ее задачей будет работа над характером моделей, чтобы они были максимально полезны и безопасны для пользователей.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”