Новый метод ученых генерирует более чистые изображения без странных искажений. Правда, пока он генерирует картинки намного дольше популярных инструментов.
Генеративные модели искусственного интеллекта часто допускают ошибки в проработке деталей — неправильно рисуют пальцы рук или искажают симметрию лица. Ученые Университета Райса разработали новый метод генерации изображений с использованием диффузионных моделей, пишет TechXplore.
Диффузионные модели «обучаются», добавляя слой за слоем случайный шум к изображениям, на которых они тренировались, а затем генерируют новые изображения, удаляя добавленный шум. Примеры таких ИИ-моделей — Stable Diffusion, Midjourney и DALL-E. Все эти инструменты генерируют реалистичные изображения. Но у них есть слабость: они хорошо генерируют только квадратные картинки.
Если попросить модель вроде Stable Diffusion создать изображение с неквадратным соотношением сторон, например, 16:9, элементы, используемые для построения сгенерированного изображения, начнут повторяться. Это проявляется в виде странных деформаций. У людей может быть шесть пальцев, а машины станут слишком вытянутыми.
Проблему усугубляет обучение моделей. Если тренировать ИИ только на изображениях с определенным разрешением, он сможет генерировать изображения только с этим разрешением. Это приводит к переобучению: когда модель хорошо генерирует только данные, похожие на те, что использовались при обучении, и не может сильно отклоняться от этих параметров. Проблема решается обучением на более широком спектре изображений. Но это дорого и требует огромных вычислительных мощностей.
Источник: hi-tech.mail.ru