Китайская компания Tencent представила нейросеть ColorFlow, предназначенную для раскрашивания манги. Примечательно, что модель машинного обучения сохраняет объекты на исходном изображении, меняя только цвета.
Авторы проекта отмечают, что художественные студии пытаются использовать диффузионные модели машинного обучения для раскрашивания скетчей и комиксов. При этом такие нейросети в процессе генерации искажают исходные объекты. Это мешает использовать диффузионные модели в промышленном масштабе.
Исследователи предложили ColorFlow — трёхступенчатую структуру на основе диффузии, которая не искажает объекты и не путает цвета. Нейросети надо передать два изображения: картинку, которую надо раскрасить, и уже цветной референс.
С помощью нейросети можно раскрашивать не только мангу, но и фотографии, кадры из фильмов и мультфильмов.
Для оценки качества генерации команда проекта разработала бенчмарк ColorFlow-Bench. С его помощью результаты работы ColorFlow сравнили с конкурентами, например, Manga Colorization V2 (MC-v2) и AnimeColorDeOldify (ACDO). В таблице видно, что ColorFlow оказалась лучше аналогов.
Код проекта опубликовали на GitHub, а модель можно найти на площадке Hugging Face. Также разработчики развернули бесплатное демо.
Источник: habr.com