В блоге OpenAI опубликован рассказ о мерах безопасности в случае, если в ходе диалога с ИИ возникает подозрение, что пользователь может причинить вред себе или кому-то еще. В компании напомнили, что модели GPT обучены не выдавать пользователям инструкции по причинению вреда, а вместо этого предлагать поддержку и мягко направлять обратиться за помощью. В некоторых случаях система может заблокировать небезопасный ответ.
Если ИИ считает, что пользователь может причинить себе вред, то он подскажет номер службы, куда можно обратиться за помощью. Мой эксперимент показал, что ChatGPT указывает российские номера 112 (единый номер службы спасения) и 8-800-2000-122 (служба доверия для детей, подростков и их родителей). Если же выяснится, что речь идет о намерениях причинить вред другому человеку, то такой диалог будет передан на проверку специальной команде внутри OpenAI — и если опасения ИИ подтвердятся, то компания может передать информацию о пользователе в правоохранительные органы.
В OpenAI признают, что системы безопасности ChatGPT еще не идеальны. Проверки показали, что в случае долгих диалогов модель может сбиваться и игнорировать протоколы безопасности. Над решением этой проблемы специалисты OpenAI работают прямо сейчас. Также ИИ планируется обучить лучше определять опасные состояния пользователя, предлагая наиболее уместную помощь.
Также обсуждается улучшение интерфейса получения помощи. Если сейчас ChatGPT просто подсказывает, по какому номеру позвонить, то в будущем связаться с соответствующими службами можно будет прямо из чата.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com