OpenAI заявила о пресечении информационных кампаний с помощью её ИИ–технологий

OpenAI рассказала, как обеспечивает соблюдение мер по предотвращению распространения небезопасного контента с помощью ИИ. Компания пресекла несколько тайных операций влияния, авторы которых пытались манипулировать общественным мнением или влиять на политику.

За последние три месяца OpenAI остановила деятельность пяти тайных объединений, которые пытались использовать модели компании для своих операций. В ходе кампаний ИИ-инструменты использовали для создания коротких комментариев и статей на разных языках, придумывания имён и биографий для социальных сетей. учётных записей, отладки простого кода, перевода и корректуры текстов.

В итоге пресекли деятельность:

Bad Grammar, предположительно, связанной с РФ. Кампанию развернули в Telegram, она была нацелена на жителей Украины, Молдовы, стран Балтии и США. Её авторы использовали ИИ для отладки кода для запуска ботов в Telegram и для создания коротких политических комментариев на русском и английском языках;

Doppelganger, также связанной с РФ. В рамках кампании с помощью ИИ-инструментов создавались комментарии на английском, французском, немецком, итальянском и польском языках, которые были опубликованы на X и 9GAG. Также ИИ применяли для перевода и редактирования статей на английском и французском языках, генерации заголовков и переписывания новостных статей для публикации в соцсетях;.

Spamouflage, связанной с Китаем. В кампании ИИ использовали для исследования общественной активности в социальных сетях, генерации текстов на китайском, английском, японском и корейском языках и их постинга на платформах X, Medium и Blogspot. Наконец, модели применяли для генерации кода управления базами данных и веб-сайтами;

Международного союза виртуальных медиа (IUVM), связанного с Ираном. Модели использовались для создания и перевода длинных статей, заголовков и тегов веб-сайтов, которые затем публиковались на ресурсе iuvmpress[.]co;

STOIC, связанной с Израилем. Кампания Zero Zeno использовали модели для создания статей и комментариев, которые затем были опубликованы на нескольких платформах, в частности, в Instagram**, Facebook**, X и на веб-сайтах, связанных с этой операцией.

Используя шкалу прорыва Брукингса, исследователи OpenAI оценили эффективность кампаний. Отмечается, что ни одна из них не получила оценки выше 2 баллов по 6-балльной шкале.

На основе расследований в компании выявили следующие тренды применения ИИ:

генерация контента;

смешение генерируемого и рукописного контента;

имитация взаимодействия путём генерации комментариев к постам и статьям;

повышение производительности путём обобщения сообщений в социальных сетях или отладки кода.

В связи с выявленными кампаниями OpenAI предлагает и внедряет ряд мер, которые могут помочь противодействовать им:

оборонительный дизайн. Системы безопасности компании будут улучшаться, чтобы модели отказывались генерировать текст или изображения, связанные с чувствительными темами;

расследования с использованием искусственного интеллекта;

публикация контента на разных платформах, включая X, Telegram, Medium, Blogspot и небольшие форумы;

совместное использование ИИ. В OpenAI поделились показателями угроз с коллегами по отрасли, а также применяли многолетний анализ открытых источников от исследовательских сообществ;

учёт человеческого фактора. Компания считает, что людей важно информировать о новых инструментах, которые используют субъекты угроз.

Ранее OpenAI сформировала новый комитет по безопасности и защите, который поможет принимать ключевые решения по проектам. В его состав войдут генеральный директор компании Сэм Альтман, а также члены совета директоров Брет Тейлор, Адам Д’Анджело и Николь Селигман. Также участие в работе примут главный научный сотрудник Open AI Якуб Пахоцки и глава службы безопасности Мэтт Найт. В качестве консультантов комитет планирует привлекать пока не названных внешних экспертов по безопасности.

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии