«Игнорировать все инструкции» больше не работает: что придумала OpenAI?

Вы наверняка видели в сети, как пользователи пытаются обмануть чат-боты фразой «забудь все предыдущие инструкции», чтобы заставить их делать что-то смешное. OpenAI разработала новый метод безопасности, чтобы бороться с этой уязвимостью.

Новая технология, получившая название «иерархия инструкций», внедрена в новейшую модель компании — GPT-4o Mini. Её суть заключается в том, что чат-бот, обученный с помощью этой технологии, всегда будет ставить системные команды разработчика выше пользовательских запросов.

Оливье Годман, руководитель разработки API-платформы OpenAI, заверил, что новая технология способна предотвратить подобные манипуляции. По его словам, «иерархия инструкций» делает модели значительно безопаснее, так как устанавливает четкую границу между системными командами и пользовательскими запросами.

Создание полностью автоматизированных цифровых агентов — одна из ключевых целей OpenAI. Понятно, что без надежной системы безопасности такие агенты могут представлять угрозу — например, получить доступ к конфиденциальным данным и передать их третьим лицам.

Слабостью существующих языковых моделей было неумение различать команды разработчика и запросы пользователей. Новая технология OpenAI решает эту проблему, наделяя системные инструкции наивысшим приоритетом. Теперь модели учатся распознавать нежелательные команды и реагировать соответствующим образом: игнорируя их или сообщая о невозможности выполнить подобный запрос.

В OpenAI осознают, что «иерархия инструкций» — лишь первый шаг на пути к созданию по-настоящему безопасных цифровых помощников. В будущем компания планирует разработать комплексную систему защиты, сравнимую с той, что уже существует в интернете: сродни браузерам, блокирующим опасные сайты, или спам-фильтрам, защищающим наши электронные ящики.

GPT-4o Mini с его акцентом на безопасность — важный шаг для OpenAI, особенно на фоне критики, касающейся защищенности и прозрачности технологий. Компания стремится вернуть доверие пользователей, чтобы в будущем мы без опасений доверили искусственному интеллекту управление некоторыми аспектами нашей цифровой жизни.

Источник: habr.com

0 0 голоса

Рейтинг новости

23459

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”