Alibaba представила Qwen VLo: мультимодальная модель для работы с изображениями

Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта, предназначенную для анализа, создания и редактирования изображений.

По данным Alibaba, Qwen VLo использует прогрессивный подход к генерации, шаг за шагом создавая изображения слева направо и сверху вниз и постоянно совершенствуя результат. Этот метод позволяет лучше контролировать результаты, особенно при работе с длинными текстами. Компания не предоставляет информацию о технических деталях, но, вероятно, Qwen VLo использует метод авторегрессии, похожий на тот, что применяется в GPT-4o, а не метод на основе диффузии.

Редактирование изображений с помощью естественного языка

Qwen VLo может интерпретировать сложные инструкции по редактированию на естественном языке, позволяя пользователям менять фон, вставлять новые объекты, изменять визуальные стили или даже объединять несколько изображений в одно.

После нескольких этапов редактирования запрос «Сгенерируйте милого сиба-ину» приводит к …… мультяшной собаке в кепке и наушниках внутри стеклянного шара

Система поддерживает как художественные, так и технические модификации изображений. Например, она может генерировать карты сегментации, выполнять обнаружение границ или создавать карты глубины с цветными наложениями по запросу.

Qwen VLo может распознавать сегменты изображения и оценивать карты глубины

Qwen VLo обрабатывает изображения с разным разрешением и соотношением сторон, поддерживая экстремальные форматы, такие как 4:1 или 1:3, хотя эта функция пока неактивна. Модель также поддерживает несколько языков, включая китайский и английский.

Ранний предварительный просмотр с ограничениями

Qwen VLo в настоящее время доступен в режиме предварительного просмотра через Qwen Chat, веб-интерфейс Alibaba. Компания отмечает, что модель по-прежнему допускает ошибки при генерации, не соответствует исходным изображениям и требует подробных инструкций. Alibaba заявляет, что планирует и дальше повышать надёжность и стабильность модели.

До сих пор Alibaba была надёжным источником конкурентоспособных языковых моделей ИИ. Например, в апреле она выпустила Qwen3 и её весовые коэффициенты, что сделало компанию важным участником исследований в области открытого ИИ. Неясно, почему Qwen VLo не была выпущена с весовыми коэффициентами модели и не свидетельствует ли это о более масштабных изменениях в подходе Alibaba к открытой публикации.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”