Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»

В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.

Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года, новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео. Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.

По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника. В нескольких демонстрационных версиях Alibaba показывает, как Qwen2.5 анализирует содержимое экрана и предоставляет инструкции для таких задач, как бронирование авиабилетов, проверка прогнозов погоды и навигация по сложным интерфейсам, таким как Gimp.

Хотя Qwen2.5 не является специализированной моделью агента, как недавно представленная OpenAI CUA, он отлично справляется с анализом интерфейсов, определением нужных кнопок и планированием рабочих процессов. Эта возможность может сделать его ценным в качестве основы для открытой системы, подобной оператору.

Модель может распознавать конкретные объекты и их компоненты — например, определять, есть ли на мотоциклисте шлем. При обработке документов, таких как счета-фактуры и формы, она может выводить информацию в структурированных форматах, таких как JSON, для удобства повторного использования.

Qwen2.5-VL может, например, определять, носят ли мотоциклисты шлем, и выводить эти данные в структурированном виде.

По данным Alibaba, самая большая версия, Qwen2.5-VL-72B, по различным тестам сравнима с GPT-4o от OpenAI, Claude 3.5 Sonnet и Gemini 2.0 Flash, а иногда и превосходит их в таких областях, как понимание текста и визуальная поддержка, без специального обучения.

Меньшие версии, Qwen2.5-VL-7B-Instruct и Qwen2.5-VL-3B, также демонстрируют улучшения по сравнению с GPT-4o-Mini и предыдущей версией Qwen2-VL во многих задачах.

Заглядывая в будущее, команда Qwen планирует улучшить способность моделей решать задачи и рассуждать, а также добавить поддержку для большего количества типов входных данных. Их конечная цель — создать AI-модель, которая сможет обрабатывать любые входные данные и задачи, включая аудио.

Модели Qwen2.5 VL доступны с открытым исходным кодом на GitHub, Hugging Face и ModelScope, а также в Qwen Chat, хотя существуют некоторые ограничения на коммерческое использование. Из-за китайских законов эти модели, как и модели Deepseek, не затрагивают некоторые темы, которые власти считают деликатными.

Недавно компания расширила серию Qwen2.5, включив в неё модель, поддерживающую контекстные окна до миллиона токенов.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

715

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”