Stability AI, разработчики Stable Diffusion, представили новую нейросеть Stable Cascade. Она использует архитектуру Würstchen, чтобы значительно уменьшить латентное пространство . За счёт этого нейросеть требует в 16 раз меньше ресурсов при обучении.
С точки зрения результатов Stable Cascade напоминает Stable Diffusion XL, а работать должна быстрее. Но авторы отмечают, что нейросеть пока что может некорректно генерировать людей и лица.
Среди дополнительных функций — создание вариаций изображении и промптинг по картинке. В первом случае нейросеть экспериментирует с заданной картинкой: анализирует исходное изображение и предлагает похожие варианты. Ниже — пример генерации вариаций без дополнительного промпта, нейросети просто скормили левую картинку.
Промптинг с картинкой работает немного иначе. На исходное изображение добавляют шум до потери детализации, после чего используют болванку как основу для генерации. Грубо говоря, нейросеть создаёт что-то тех же очертаний, но с другими деталями, отталкиваясь от текстового описания. В примере ниже к исходнику добавили 80% шума и промпт «Человек верхом на грызуне».
Сейчас опробовать Stable Cascade можно на Hugging Face — это неофициальное онлайн-демо с урезанными возможностями: генерировать можно только по текстовому запросу. Код доступен на GitHub.
Изображения, сгенерированные через Stable Cascade, предназначены только для некоммерческого использования.
Источник: lifehacker.ru