Gemini позволяет редактировать изображения без текстовых инструкций: теперь нужно рисовать

На протяжении длительного времени пользователи в рамках взаимодействия с генеративными моделями искусственного интеллекта были весьма скованы в самовыражении, так как при помощи текстовых инструкций далеко не всегда удаётся прописать задачу с высокой степенью точности. И в Google решили эту проблему исправить, крупно обновив приложение Gemini — теперь фирменный софт на базе искусственного интеллекта предоставляет пользователям новую более удобную возможность давать подсказки генеративной модели Nano Banana при помощи рисования. Да, звучит довольно просто, но это существенно меняет процесс редактирования изображений посредством ИИ. Telegram-канал создателя Трешбокса про технологии

Теперь пользователю достаточно добавить изображение в поле ввода чат-бота, после чего активировать новый режим редактора «Разметка» — достаточно ещё раз нажать на изображение в поле Gemini. После этого на экране появится новый редактор изображения с двумя кнопками — «Эскиз» и «Текст». Первая кнопка предоставляет возможность рисовать на выбранном изображении — можно выделять область, которую нужно отредактировать, обводить объекты, которые нужно удалить, дорисовывать какие-то элементы и многое другое. То есть теперь посредством кисти пользователь выполняет те же действия, которые ранее приходилось долго и весьма утомительно прописывать в тексте.

Кроме того, в режиме редактора пользователь может нажать на кнопку Text, чтобы помимо рисования добавить поверх изображения текстовую подсказку. Например, можно нарисовать собаке колпак в схематическом формате, а затем написать «добавь праздничный колпак», чтобы система лучше понимала, что нужно сделать.

Особенно эта функция хорошо работает с удалением объектов — можно заштриховать забор, после чего дать команду его удалить, и система сразу распознает необходимые элементы в кадре. Это, пожалуй, куда быстрее, чем объяснять ИИ, какой именно забор нужно удалить, плюс точность выполняемых действий будет куда выше.

В определённом смысле это действительно революция взаимодействия с генеративными ИИ-моделями — та же OpenAI, например, недавно представила ChatGPT Images нового поколения, в которой все действия нужно прописывать текстом. Это долго, не всегда точно и интуитивно понятно, так что для получения желаемого результата иногда нужно слишком много итераций обработки. Подход Google выглядит куда более удобным.

Источник: trashbox.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии