В Anthropic выяснили, как ИИ вырабатывает те или иные черты характера

В Anthropic провели исследование, в ходе которого выяснили, почему ИИ иногда обретает определенные персональные черты, в том числе нежелательные — например, озлобленность, подхалимство или склонность к галлюцинациям. Исследователи взяли «нормальные» ответы и ответы, в которых ИИ проявлял одну из перечисленных выше особенностей, а затем вычли активации нейронов, получив так называемый persona vector. Чем сильнее активации «смотрят» в направлении вектора — тем больше проявляется черта, с которой он связан.

Авторы отмечают, что на persona vectors влияют как промпты, которые пишет пользователь, так и данные, на которых тренируют модель. Например, если обучить модель на заведомо неправильных ответах по математике или некорректных медицинских диагнозах, она начинает «рационализировать» ошибку и принимает образ злобного советчика: в одном тесте модель внезапно назвала Гитлера любимой исторической фигурой.

Persona vector активируется перед тем, как модель дает ответ, поэтому заранее можно определять, когда включится нежелательная черта характера. Однако при попытке подавить вектор во время генерации ответа, ИИ становился корректным, но одновременно глупел. Более эффективным вариантом оказалось что-то вроде «вакцины» — во время тренировки вручную добавляли нежелательный вектор, чтобы модель «привыкла» и не впитывала его из плохих данных. После тренировки вектор вычитали, что улучшало поведение модели и почти не влияло на качество ответов. Кроме того, метод позволяет определить, какие именно данные активируют вектор — и сократить их количество в обучающих сетах.

Исследование проводилось на сравнительно небольших моделях Qwen-2.5-7B-Instruct и Llama-3.1-8B-Instruct и только на трех чертах — но в будущем его результаты можно применить для моделей с большим количеством параметров и для большего количества особенностей. Сейчас в Anthropic собирают команду, которую в шутку называют «ИИ-психиатрами» — ее задачей будет работа над характером моделей, чтобы они были максимально полезны и безопасны для пользователей.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии