В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.
Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года, новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео. Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.
По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника. В нескольких демонстрационных версиях Alibaba показывает, как Qwen2.5 анализирует содержимое экрана и предоставляет инструкции для таких задач, как бронирование авиабилетов, проверка прогнозов погоды и навигация по сложным интерфейсам, таким как Gimp.
Хотя Qwen2.5 не является специализированной моделью агента, как недавно представленная OpenAI CUA, он отлично справляется с анализом интерфейсов, определением нужных кнопок и планированием рабочих процессов. Эта возможность может сделать его ценным в качестве основы для открытой системы, подобной оператору.
Модель может распознавать конкретные объекты и их компоненты — например, определять, есть ли на мотоциклисте шлем. При обработке документов, таких как счета-фактуры и формы, она может выводить информацию в структурированных форматах, таких как JSON, для удобства повторного использования.
Qwen2.5-VL может, например, определять, носят ли мотоциклисты шлем, и выводить эти данные в структурированном виде.
По данным Alibaba, самая большая версия, Qwen2.5-VL-72B, по различным тестам сравнима с GPT-4o от OpenAI, Claude 3.5 Sonnet и Gemini 2.0 Flash, а иногда и превосходит их в таких областях, как понимание текста и визуальная поддержка, без специального обучения.
Меньшие версии, Qwen2.5-VL-7B-Instruct и Qwen2.5-VL-3B, также демонстрируют улучшения по сравнению с GPT-4o-Mini и предыдущей версией Qwen2-VL во многих задачах.
Заглядывая в будущее, команда Qwen планирует улучшить способность моделей решать задачи и рассуждать, а также добавить поддержку для большего количества типов входных данных. Их конечная цель — создать AI-модель, которая сможет обрабатывать любые входные данные и задачи, включая аудио.
Модели Qwen2.5 VL доступны с открытым исходным кодом на GitHub, Hugging Face и ModelScope, а также в Qwen Chat, хотя существуют некоторые ограничения на коммерческое использование. Из-за китайских законов эти модели, как и модели Deepseek, не затрагивают некоторые темы, которые власти считают деликатными.
Недавно компания расширила серию Qwen2.5, включив в неё модель, поддерживающую контекстные окна до миллиона токенов.
Источник
Источник: habr.com