Новую ИИ-модель OpenAI научили игнорировать популярную лазейку

OpenAI выпустила свою новейшую модель GPT-4o Mini, оснащенную новым методом защиты, позволяющим предотвратить обман чат-ботов с помощью лазейки «игнорирование всех предыдущих инструкций». Эта тактика, часто используемая для изменения принципа работы ИИ-ботов, может привести к непреднамеренному поведению, поскольку аннулировала первоначальные директивы бота.

Новая техника, получившая название «иерархия инструкций», гарантирует, что модель будет отдавать предпочтение первоначальным инструкциям разработчика перед любыми последующими запросами пользователя. По словам Оливье Годемента, возглавляющего продукт платформы API в OpenAI, этот метод учит модель строго следовать системным сообщениям, тем самым блокируя несанкционированные команды.

Обновление прокладывает путь к полностью автоматизированным агентам, поскольку OpenAI стремится создать «надежных цифровых помощников», что может восстановить доверие и проложить путь к более широкому внедрению ИИ, считают аналитики.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

23028

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”