Gemini позволяет редактировать изображения без текстовых инструкций: теперь нужно рисовать

На протяжении длительного времени пользователи в рамках взаимодействия с генеративными моделями искусственного интеллекта были весьма скованы в самовыражении, так как при помощи текстовых инструкций далеко не всегда удаётся прописать задачу с высокой степенью точности. И в Google решили эту проблему исправить, крупно обновив приложение Gemini — теперь фирменный софт на базе искусственного интеллекта предоставляет пользователям новую более удобную возможность давать подсказки генеративной модели Nano Banana при помощи рисования. Да, звучит довольно просто, но это существенно меняет процесс редактирования изображений посредством ИИ. Telegram-канал создателя Трешбокса про технологии

Теперь пользователю достаточно добавить изображение в поле ввода чат-бота, после чего активировать новый режим редактора «Разметка» — достаточно ещё раз нажать на изображение в поле Gemini. После этого на экране появится новый редактор изображения с двумя кнопками — «Эскиз» и «Текст». Первая кнопка предоставляет возможность рисовать на выбранном изображении — можно выделять область, которую нужно отредактировать, обводить объекты, которые нужно удалить, дорисовывать какие-то элементы и многое другое. То есть теперь посредством кисти пользователь выполняет те же действия, которые ранее приходилось долго и весьма утомительно прописывать в тексте.

Кроме того, в режиме редактора пользователь может нажать на кнопку Text, чтобы помимо рисования добавить поверх изображения текстовую подсказку. Например, можно нарисовать собаке колпак в схематическом формате, а затем написать «добавь праздничный колпак», чтобы система лучше понимала, что нужно сделать.

Особенно эта функция хорошо работает с удалением объектов — можно заштриховать забор, после чего дать команду его удалить, и система сразу распознает необходимые элементы в кадре. Это, пожалуй, куда быстрее, чем объяснять ИИ, какой именно забор нужно удалить, плюс точность выполняемых действий будет куда выше.

В определённом смысле это действительно революция взаимодействия с генеративными ИИ-моделями — та же OpenAI, например, недавно представила ChatGPT Images нового поколения, в которой все действия нужно прописывать текстом. Это долго, не всегда точно и интуитивно понятно, так что для получения желаемого результата иногда нужно слишком много итераций обработки. Подход Google выглядит куда более удобным.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”