OpenAI выпускает открытые safeguard-модели для гибкой настройки классификации контента

OpenAI передаёт больше инструментов контроля безопасности непосредственно в руки разработчиков ИИ, запуская исследовательскую версию своих новых «защитных»(safeguard) моделей.Новое семейство моделей с открытыми весами gpt-oss-safeguard разработано специально для гибкой настройки и адаптации систем классификации контента под конкретные задачи и требования пользователей.

В линейку входят две модели — gpt-oss-safeguard-120b и более компактная gpt-oss-safeguard-20b. Обе модели представляют собой дообученные версии существующего семейства gpt-oss и будут доступны под разрешительной лицензией Apache 2.0. Это означает, что любые организации смогут свободно использовать, модифицировать и развёртывать их на своих условиях.

Главное отличие состоит не только в открытой лицензии, но и в самом подходе. Вместо опоры на жёстко прописанный набор правил, модель gpt-oss-safeguard использует свои способности рассуждения для интерпретации политики разработчика на этапе вывода. Это означает, что разработчики, использующие новую модель OpenAI, могут настраивать собственную систему безопасности для классификации как отдельных запросов пользователя, так и целых историй чата.

Разработчик, а не поставщик модели, принимает окончательное решение о наборе правил и может адаптировать его под конкретный сценарий использования.

У этого подхода есть несколько очевидных преимуществ:

Прозрачность. Модели используют механизм «цепочки рассуждений» (chain of thought), благодаря чему разработчик действительно может заглянуть «под капот» и увидеть логику, по которой модель принимает решение о классификации. Это значительный шаг вперёд по сравнению с типичными классификаторами-«чёрными ящиками».

Гибкость. Поскольку политика безопасности не жёстко зашита в новую модель OpenAI, разработчики могут оперативно пересматривать и обновлять свои правила без необходимости полного цикла переобучения. В OpenAI отмечают, что изначально эта система создавалась для внутренних команд компании и представляет собой гораздо более гибкий способ управления безопасностью, чем традиционные классификаторы, которые лишь косвенно пытаются угадать намерения, заложенные в политике.

Вместо того чтобы полагаться на универсальный слой безопасности от владельца платформы, разработчики, использующие открытые модели ИИ, теперь могут создавать и внедрять собственные, специализированные стандарты безопасности.

Хотя на момент публикации модели ещё не запущены в открытый доступ, разработчики смогут получить к ним доступ на платформе Hugging Face, где будут размещены открытые версии моделей безопасности ИИ от OpenAI.

Источник: AINews

Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”