Криповые ИИ-изображения в прошлом: ученые создали новый способ генерации картинок

Новый метод ученых генерирует более чистые изображения без странных искажений. Правда, пока он генерирует картинки намного дольше популярных инструментов.

Генеративные модели искусственного интеллекта часто допускают ошибки в проработке деталей — неправильно рисуют пальцы рук или искажают симметрию лица. Ученые Университета Райса разработали новый метод генерации изображений с использованием диффузионных моделей, пишет TechXplore. 

Диффузионные модели «обучаются», добавляя слой за слоем случайный шум к изображениям, на которых они тренировались, а затем генерируют новые изображения, удаляя добавленный шум. Примеры таких ИИ-моделей — Stable Diffusion, Midjourney и DALL-E. Все эти инструменты генерируют реалистичные изображения. Но у них есть слабость: они хорошо генерируют только квадратные картинки. 

Если попросить модель вроде Stable Diffusion создать изображение с неквадратным соотношением сторон, например, 16:9, элементы, используемые для построения сгенерированного изображения, начнут повторяться. Это проявляется в виде странных деформаций. У людей может быть шесть пальцев, а машины станут слишком вытянутыми.

Проблему усугубляет обучение моделей. Если тренировать ИИ только на изображениях с определенным разрешением, он сможет генерировать изображения только с этим разрешением. Это приводит к переобучению: когда модель хорошо генерирует только данные, похожие на те, что использовались при обучении, и не может сильно отклоняться от этих параметров. Проблема решается обучением на более широком спектре изображений. Но это дорого и требует огромных вычислительных мощностей.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
10032
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии