Разработана система обучения ИИ на повреждённых данных для защиты разработчиков от претензий правообладателей

Исследователи разработали систему обучения моделей искусственного интеллекта под названием Ambient Diffusion, которая использует только повреждённые данные на основе изображений. Первые попытки тестирования показывают, что фреймворк способен генерировать высококачественные образцы.

Разработкой руководила группа Техасского университета в Остине. исследователи считают, что система позволит избежать галлюцинаций будущих моделей и попыток копирования ими оригинальных работ, защищённых авторским правом.

DALL-E, Midjourney и Stable Diffusion используют при генерации картинок принцип диффузии. Обученные на миллиардах пар изображений и текстов, некоторые из которых защищены копирайтом, модели могут нарушать права создателей оригинального контента.

Ambient Diffusion изначально представили на конференции по машинному обучению NeurIPS в 2023 году. С тех пор модель расширили. Новую версию системы представили на Международной конференции по машинному обучению 2024 года. В сотрудничестве с Константиносом Даскалакисом из Массачусетского технологического института команда расширила структуру для обучения моделей диффузии на наборах данных изображений, искаженных другими типами шумов, а не просто маскировкой пикселей. Технологию также применили к более крупным наборам данных.

«Эта система может оказаться полезной и для научных и медицинских приложений», — сказал Адам Кливанс, профессор компьютерных наук, принимавший участие в работе.

Кливанс и Алекс Димакис, профессор электротехники и вычислительной техники, сначала экспериментировали, обучая диффузионную модель на наборе из 3000 изображений знаменитостей, а затем используя её для создания новых образцов. В эксперименте диффузионная модель, обученная на чистых данных, явно копировала обучающие примеры. Но когда исследователи исказили данные, случайным образом замаскировав до 90% отдельных пикселей изображения, и переобучили модель с помощью нового подхода, сгенерированные образцы были высокого качества, но выглядели совсем по-другому. Модель по-прежнему может генерировать человеческие лица, но они существенно отличаются от обучающих изображений.

«Наша структура позволяет контролировать компромисс между запоминанием и производительностью», — сказал Яннис Дарас, аспирант компьютерных наук, который руководил работой.

В исследовательскую группу входили представители Калифорнийского университета в Беркли и Массачусетского технологического института. Работу финансировали Национальный научный фонд США, Western Digital, Amazon и Cisco.

Между тем OpenAI представила сразу несколько решений для этичного использования её инструментов генеративного искусственного интеллекта. Так, Media Manager позволит создателям контента и владельцам авторских прав на него сообщать компании о нарушениях. Кроме того, они смогут согласиться или отказаться от использования своего контента для обучения ИИ.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”