OpenAI: модель GPT-4o имеет «средний» риск в рамках оценки безопасности проекта

OpenAI поделилась системной картой для GPT-4o и выпустила оценочную карту Preparedness Framework, чтобы обеспечить сквозную оценку безопасности модели. Также компания рассказала об ограничениях ИИ и оценках безопасности по нескольким категориям.

OpenAI провела больше работы по обеспечению безопасности, сосредоточившись на аудиовозможностях GPT-4o. Оцениваемые риски включают идентификацию говорящего, несанкционированную генерацию голоса, потенциальное создание контента, защищённого авторским правом, необоснованные выводы и запрещённый контент. Основываясь на результатах этих оценок, OpenAI внедрила меры безопасности как на уровне модели, так и на уровне системы.

GPT-4o набрала низкие баллы в трёх из четырёх категорий Preparedness Framework, а также средний балл по убедительности. OpenAI отмечает, что можно развёртывать только модели со средней или ниже оценкой.

Компания сотрудничает с более чем 100 внешними участниками «красных команд» для оценки модели перед её выпуском. Они оценят новые потенциальные риски, создаваемые моделью, и проведут стресс-тестирование мер по смягчению последствий.

Команда OpenAI пообещала «отслеживать и обновлять меры по смягчению последствий в соответствии с меняющейся обстановкой».

В мае OpenAI презентовала новую языковую модель GPT-4o. Она может воспринимать и генерировать звук, изображение и текст и доступна всем пользователям бесплатно. С конца июля аудиовозможности модели стали доступными для подписчиков ChatGPT Plus.

В начале августа из OpenAI ушёл ещё один соучредитель и ключевой специалист по безопасности ИИ Джон Шульман. Он объявил, что присоединяется к ИИ-стартапу Anthropic, созданному бывшими исследователями OpenAI.

Источник: habr.com

0 0 голоса

Рейтинг новости

23070

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”