OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.

Изучив внутренние представления модели ИИ — числа, которые определяют реакцию модели ИИ и которые часто кажутся людям совершенно бессвязными, — исследователи OpenAI смогли выявить закономерности, которые проявлялись, когда модель вела себя неправильно.

Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ. Это означает, что модель ИИ давала несогласованные ответы, например, лгала пользователям или делала безответственные предложения.

Исследователи обнаружили, что они могут повышать или понижать токсичность, регулируя этот параметр.

Последние исследования OpenAI позволяют компании лучше понять факторы, которые могут привести к небезопасному поведению моделей ИИ, и, таким образом, могут помочь в разработке более безопасных моделей ИИ. По словам исследователя OpenAI Дэна Моссинга, потенциально OpenAI может использовать обнаруженные закономерности для более эффективного выявления несоответствий в производственных моделях ИИ.

«Мы надеемся, что инструменты, которые мы освоили, — например, способность свести сложное явление к простой математической операции, — помогут нам понять обобщение моделей и в других областях», — сказал Моссинг в интервью TechCrunch.

Исследователи в области ИИ знают, как улучшать модели ИИ, но, что странно, они не до конца понимают, как модели ИИ приходят к своим выводам. Крис Ола из Anthropic часто отмечает, что модели ИИ чаще развиваются, чем создаются. OpenAI, Google DeepMind и Anthropic вкладывают больше средств в исследования в области интерпретируемости — области, которая пытается раскрыть «чёрный ящик» работы моделей ИИ, — чтобы решить эту проблему.

Недавнее исследование, проведённое учёным-исследователем в области ИИ из Оксфорда Оуэном Эвансом, подняло новые вопросы о том, как модели ИИ обобщают информацию. Исследование показало, что модели OpenAI могут быть доработаны с использованием небезопасного кода и затем демонстрировать вредоносное поведение в различных областях, например, пытаться обманом заставить пользователя поделиться своим паролем. Это явление известно как возникающее несоответствие, и исследование Эванса вдохновило OpenAI на дальнейшее изучение этого вопроса.

Но в процессе изучения возникающего несоответствия OpenAI, по их словам, обнаружила в моделях ИИ функции, которые, по-видимому, играют важную роль в управлении поведением. Моссинг говорит, что эти паттерны напоминают внутреннюю активность мозга человека, в которой определённые нейроны связаны с настроением или поведением.

«Когда Дэн и его команда впервые представили это на исследовательской встрече, я подумал: «Ого, вы, ребята, нашли это», — сказал Теджал Патвардхан, исследователь в области пограничных оценок OpenAI, в интервью TechCrunch. «Вы нашли что-то вроде внутренней нейронной активации, которая показывает эти образы и которую можно использовать, чтобы сделать модель более согласованной».

Некоторые функции, обнаруженные OpenAI, коррелируют с сарказмом в ответах модели ИИ, в то время как другие функции коррелируют с более токсичными ответами, в которых модель ИИ ведёт себя как мультяшный злодей. Исследователи OpenAI говорят, что эти функции могут кардинально меняться в процессе тонкой настройки.

Примечательно, что, по словам исследователей OpenAI, когда возникала непредвиденная несогласованность, можно было вернуть модель к нормальному поведению, настроив её всего на нескольких сотнях примеров безопасного кода.

Последние исследования OpenAI основаны на предыдущей работе Anthropic в области интерпретируемости и согласованности. В 2024 году Anthropic опубликовал исследование, в котором попытался описать внутреннюю работу моделей ИИ, выявить и обозначить различные функции, отвечающие за разные концепции.

Такие компании, как OpenAI и Anthropic, доказывают, что понимание того, как работают модели ИИ, имеет реальную ценность, а не просто улучшает их. Однако предстоит пройти долгий путь, чтобы полностью понять современные модели ИИ.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”