Вышел Qwen2.5-VL от Alibaba
Астрологи объявили неделю китайских нейросетей. На этот раз у нас апдейт Qwen2.5-VL.
Это модель, умеющая принимать на вход на текст, так и изображения, обладает более развитой способностью «понимать» нарисованное на картинках, в том числе прекрасно справляется с обработкой видео длительности до 1 часа.
Ссылка на официальный блог: https://qwenlm.github.io/blog/qwen2.5-vl/
Ключевые улучшения
Взято из https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct и переведено на русский с небольшой редактурой для понятности:
Визуальное понимание
Модель Qwen2.5-VL не только умеет распознавать привычные объекты (цветы, птицы, рыбы, насекомые), но и способна анализировать тексты, диаграммы, иконки, графику и макеты внутри изображений.
Работа в формате ИИ-агента:
Qwen2.5-VL может напрямую выступать в роли визуального агента, который умеет рассуждать и динамически использовать различные инструменты, в том числе компьютер или телефон. [Привет, OpenAI Operator!]
Понимание длинных видео и фиксация событий:
Qwen2.5-VL способна разбирать видео длительностью более 1 часа.
Новая возможность — находить конкретные события, выделяя нужные фрагменты видео.
Точная локализация в разных форматах:
Модель умеет точно находить объекты на изображении, создавая bounding-box или указывая точки.
Она также может выдавать JSON с координатами и характеристиками объектов.
Генерация структурированных данных:
При работе со сканами счетов, форм, таблиц и т.п. Qwen2.5-VL поддерживает структурированный вывод их содержимого, что полезно в финансах, торговле и других сферах.
Обновления архитектуры модели
Динамическое разрешение и частота кадров при обучении видео:
Была расширена идея динамического разрешения, было добавлено временное измерение, и переменная частота кадров (FPS). Это помогает модели понимать видео с разными скоростями воспроизведения.
Также был обновлен mRoPE во временном измерении с помощью использования ID и абсолютной привязки ко времени. Это позволяет модели лучше понимать последовательность событий и скорость, чтобы точнее находить конкретные моменты в видео.
Упрощённый и быстрый визуальный энкодер:
Ускорено обучение и вывод результатов, используя оконное внимание (window attention) в ViT.
Архитектуру ViT оптимизировали с использованием SwiGLU и RMSNorm, чтобы она соответствовала структуре языковой модели Qwen2.5.
Бенчмарки
Тут всё не так однозначно. В каких-то (MathVista_MINI) Qwen2.5-VL уступает моделям от OpenAI, в каких-то лидирует.
Бенчмарки по иозбражений:
Benchmarks
GPT4o
Claude3.5 Sonnet
Gemini-2-flash
InternVL2.5-78B
Qwen2-VL-72B
Qwen2.5-VL-72B
MMMUval
70.3
70.4
70.7
70.1
64.5
70.2
MMMU_Pro
54.5
54.7
57.0
48.6
46.2
51.1
MathVista_MINI
63.8
65.4
73.1
76.6
70.5
74.8
MathVision_FULL
30.4
38.3
41.3
32.2
25.9
38.1
Hallusion Bench
55.0
55.16
57.4
58.1
55.16
MMBench_DEV_EN_V11
82.1
83.4
83.0
88.5
86.6
88
AI2D_TEST
84.6
81.2
89.1
88.1
88.4
ChartQA_TEST
86.7
90.8
85.2
88.3
88.3
89.5
DocVQA_VAL
91.1
95.2
92.1
96.5
96.1
96.4
MMStar
64.7
65.1
69.4
69.5
68.3
70.8
MMVet_turbo
69.1
70.1
72.3
74.0
76.19
OCRBench
736
788
854
877
885
OCRBench-V2(en/zh)
46.5/32.3
45.2/39.6
51.9/43.1
45/46.2
47.8/46.1
61.5/63.7
CC-OCR
66.6
62.7
73.0
64.7
68.7
79.8
Бенчмарки по видео:
Benchmarks
GPT4o
Gemini-1.5-Pro
InternVL2.5-78B
Qwen2VL-72B
Qwen2.5VL-72B
VideoMME w/o sub.
71.9
75.0
72.1
71.2
73.3
VideoMME w sub.
77.2
81.3
74.0
77.8
79.1
MVBench
64.6
60.5
76.4
73.6
70.4
MMBench-Video
1.63
1.30
1.97
1.70
2.02
LVBench
30.8
33.1
—
41.3
47.3
EgoSchema
72.2
71.2
—
77.9
76.2
PerceptionTest_test
—
—
—
68.0
73.2
MLVU_M-Avg_dev
64.6
—
75.7
74.6
TempCompass_overall
73.8
—
—
74.8
Бенчмарки по «агентским» спосоностям:
Benchmarks
GPT4o
Gemini 2.0
Claude
Aguvis-72B
Qwen2VL-72B
Qwen2.5VL-72B
ScreenSpot
18.1
84.0
83.0
87.1
ScreenSpot Pro
17.1
1.6
43.6
AITZ_EM
35.3
72.8
83.2
Android Control High_EM
66.4
59.1
67.36
Android Control Low_EM
84.4
59.2
93.7
AndroidWorld_SR
34.5% (SoM)
27.9%
26.1%
35%
MobileMiniWob++_SR
66%
68%
OSWorld
14.90
10.26
8.83
Заключение
Alibaba выпустили модель в 3 вариантах — 3, 7 и 72 миллиарда параметров. Более подробное описание можно посмотреть на HuggingFace, а сама модель лежит на GitHub.
Вот уж мощное начало года для китайских специалистов в ИИ.
—
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!
Источник: habr.com