На портале arXive команда исследователей Google анонсировала модель машинного обучения Imagen 3, предназначенную для генерации изображений по текстовому описанию. Она заменит собой прошлую версию и будет доступна в сервисе ImageFX.
Нейросеть Imagen 3 по умолчанию создаёт изображения с разрешением 1024×1024 пикселей. При этом есть возможность увеличить разрешение в 2, 4 и 8 раз. В компании считают, что Imagen 3 лучше других моделей на рынке справляется с созданием фотореалистичных картинок и может обрабатывать длинные запросы с обилием деталей.
Изображения в разрешении 4K (12 МП), созданные с помощью Imagen 3
Для датасета использовали уникальные изображения, которые прошли через несколько фильтров. В первую очередь из набора данных убрали небезопасные и жестокие картинки, а после удалили низкокачественные файлы. Кроме того, инженеры внимательно следили, чтобы в датасет не попали сгенерированные изображения. К каждой картинке добавили текстовое описание.
Примеры работ Imagen 3
В ближайшее время Imagen 3 появится на платформе ImageFX от Google. Доступ к самой платформе пока есть только у жителей США. Всем остальным пользователям необходимо зарегистрироваться в очереди и ждать, когда компания расширит географию сервиса.
Источник: habr.com