Midjourney научился генерировать одинаковых персонажей

Один из главных недостатков генераторов изображений — невозможность создавать одинаковых персонажей в разных позах и локациях. Это сильно ограничивает использование нейросетей в разработке игр, создании комиксов и т.п. И вот Midjourney, наконец, услышал стоны миллионов пользователей и внедрил возможность воссоздавать одинаковых персонажей в новых генерациях.

Большинство нейросетей, создающих изображения по описанию, основаны на «диффузионных моделях», аналогичных или напрямую использующих алгоритмы генерации изображений Stable Diffusion (модель с открытым исходным кодом от Stability AI). Они работают очень грубо: берут текст пользователя и пытаются собрать изображение попиксельно, выбирая элементы, соответствующие введённой подсказке.

Почему одинаковые персонажи так сложны для нейросетей

Как и в случае с большими языковыми моделями (LLM), такими как ChatGPT от OpenAI или новый Command-R от Cohere, проблема всех генераторов изображений заключается в том, что ИИ генерирует что-то новое для каждого отдельного запроса, даже если подсказка повторяется или используются одни и те же ключевые слова.

Это здорово, если вам нужно создать совершенно новые изображения. Но что, если вы создаете раскадровку фильма, игры, графического романа, комикса, в котором один и тот же персонаж должен появляться в разных сценах, обстановке, с разными выражениями лица и реквизитом?

Именно этот сценарий до сих пор было очень сложно реализовать с помощью генеративного ИИ. Midjourney пытается это исправить, представив новый тег «-cref» , который пользователи могут добавлять в конец своих текстовых подсказок. В этом случае Midjourney будет пытаться создавать картинки с одинаковым лицом, телосложением и даже одеждой, беря их из URL-адреса, который пользователь вставляет после указанного тега.

По мере развития и совершенствования этой функции Midjourney может превратиться из классной игрушки или источника идей в более профессиональный инструмент.

Как использовать новую функцию

Тег лучше всего работает с изображениями, ранее созданными в Midjourney. Функция не предназначена для фотографий реальных людей. И, в целом, точность её ограничена, она не способна копировать ямочки на щёках, веснушки или логотипы на футболках.

Рабочий процесс будет заключаться в том, чтобы сначала сгенерировать персонажа, а потом использовать URL-адрес для получения других кадров с ним.

Рассмотрим на примере. Начнём с такой подсказки: «мускулистый лысый мужчина с бусами и повязкой на глазу».

Каков красавчик

Увеличим изображение, которое нам больше всего понравилось, а затем, удерживая клавишу Ctrl, кликаем по нему и выбираем опцию «Copy link» (копировать ссылку).

Затем мы можем ввести в подсказку новые подробности: «в белом смокинге, стоящий на вилле –cref [URL]» и вставить URL-адрес изображения, которое мы только что сгенерировали. Midjourney попытается сгенерировать того же персонажа, что и раньше, но с новыми деталями.

Ну почти…

К сожалению, результат пока далёк от исходного персонажа (и даже от исходной подсказки), но, в целом, обнадёживает.

Кроме того, можно в некоторой степени контролировать «вес» исходного изображения, то есть насколько точно новая картинка воспроизводит оригинал. Для этого нужно добавить после урла тег «-cw» с числом от 1 до 100, например: «–cref [URL] –cw 100». Чем меньше число «cw», тем больше отличий от исходника будет в итоговом изображении. Чем выше число «cw», тем точнее новое изображение будет соответствовать исходной ссылке.

На примере ниже видно, что ввод очень низкого значения «cw 8» позволил получить желаемый белый смокинг. Однако теперь потерялась повязка на глазу.

Ну что ж, нет ничего такого, чего нельзя было бы исправить с помощью “vary region”…

Итак, повязка появилась, но не на том глазу… Но это уже большой прогресс!

Дополнительно Midjourney добавили ещё одну функцию объединения нескольких изображений. Для этого нужно использовать два тега «-cref» рядом с соответствующими URL-адресами. Но эта функция была только-только запущена. Если у вас есть Midjourney, можете сами попробовать.

Ещё раз краткая инструкция по использованию новой фичи:

Введите —cref URL после подсказки, где URL — ссылка на изображение персонажа.

Используйте —cw для изменения «веса» ссылки (допустимы значения от 0 до 100).

Вес 100 ( —cw 100) используется по умолчанию, чтобы точно воспроизвести лицо, волосы и одежду.

При весе 0 ( —cw 0) нейросеть будет фокусироваться только на лице (подходит для смены одежды/прически и т. д.)

Попробуйте!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”