Привет, Хабр! Вчера команда Qwen (Alibaba) представила долгожданный техрепорт визуальной языковой модели (VLM) Qwen2.5-VL. Новую модель улучшили в задачах компьютерного зрения, локализации объектов, анализа документов и понимания видео длительностью до часа. В этой статье мы разберем ключевые технические инновации, архитектурные особенности и экспериментальные результаты модели, а также взглянем на интересные детали, упомянутые в официальном отчете.
Ключевые особенности Qwen2.5-VL
Qwen2.5-VL демонстрирует высокую точность определения локализации объектов – будь то данные из документов, диаграмм, графиков или таблиц.
Модель использует динамическое разрешение изображений и абсолютное временное кодирование, что позволяет ей адаптироваться к входам различного масштаба и длительности.
Одной из революционных возможностей является анализ видео с точностью до секунд, даже для видео длительностью до часа.
Помимо статических задач, модель способна выполнять интерактивное взаимодействие с интерфейсами компьютеров и мобильных устройств, демонстрируя элементы агентности в прикладных задачах.
Архитектурные инновацииQwen2.5-VL объединяет энкодер изображений и декодер языковой модели для обработки мультимодальных данных. Энкодер работает с данными в их исходном разрешении, преобразуя изображения разных размеров и видео с различным FPS в последовательности токенов разной длины. Особенность MRoPE — выравнивание временных меток с абсолютным временем, что помогает модели лучше понимать временную динамику событий и точно определять моменты.Оптимизация визуального энкодера
Одной из центральных новаций является window attention в визуальном энкодере. Благодаря этому механизму вычислительные затраты значительно снижаются, что особенно важно при обработке изображений с высоким разрешением. При этом архитектура ViT (Vision Transformer) обучается с нуля, что позволяет максимально адаптировать модель под задачи мульти-модального понимания.
Помимо этого, вводится адаптивное сжатие пространственных патчей – вместо прямой передачи сырых патчей, авторы группируют их по 4 штуки и пропускают через двухслойный MLP. Этот прием позволяет гибко изменять длину последовательности признаков и существенно снижать нагрузку на последующие блоки модели.
Модифицированный MRoPE и абсолютное временное кодирование
Для работы с последовательностями, как в статичных изображениях, так и в видео, Qwen2.5-VL использует модифицированную версию позиционного кодирования – MRoPE (Multimodal Rotary Position Embedding). Главное отличие – привязка временной компоненты к абсолютному времени, что позволяет модели более точно ориентироваться во временной динамике видео. Такая схема устраняет необходимость в традиционных нормализациях координат и обеспечивает естественное восприятие масштабов и темпа событий.
Динамическая обработка видео
В задачах видеоанализа введен динамический сэмплинг кадров: для длинных видео два соседних кадра группируются вместе, что позволяет модели экономить вычислительные ресурсы при сохранении точности локализации событий. Такой подход позволяет осуществлять анализ видео длительностью до 60 минут с секундной точностью выделения событий.
Новый подход в подготовке данных
Качество данных всегда было ключевым фактором успеха в обучении больших языковых моделей. Qwen2.5-VL получил значительный прирост в объеме датасета: число токенов для претрейна увеличено с 1.2 триллиона до 4.1 триллиона. При этом особое внимание уделялось созданию interleaved text-image датасетов, которые обеспечивают корректное соотношение изображений и текстовых описаний.
Также использовались синтетические данные, сгенерированные с помощью таких библиотек, как matplotlib и seaborn, что позволило собрать порядка 1 млн примеров для диаграмм и около 6 млн – для таблиц. Фильтрация данных реализована через многоступенчатый пайплайн, который оценивает как качество текста, так и релевантность изображения, дополняемость информации и баланс полезных деталей.
Экспериментальные результаты
В отчете приводятся сравнительные результаты Qwen2.5-VL на различных бенчмарках:
Модель превосходит конкурентов по многим показателям, демонстрируя высокую точность в OCR: анализе многоязычных документов, рукописного текста, таблиц, диаграмм и даже нот.
Благодаря возможности точной локализации объектов, Qwen2.5-VL успешно решает задачи по подсчету и обнаружению объектов на изображениях.
В задачах video grounding и long-video understanding модель опережает современные аналоги, выделяя события за секунды реального времени.
В ряде агентных бенчмарков, связанных с управлением интерфейсами на компьютерах и мобильных устройствах, модель демонстрирует высокую эффективность.
Сравнение Qwen2.5-VL с текущими лучшими моделямиСравнение Qwen2.5-VL в различных задачах: общие, математика, кодинг и выравниваниеСравнение Qwen2.5-VL в зачадах OCRСравнение Qwen2.5-VL в задачах понимания видеоСравнение Qwen2.5-VL в агентных задачах
Интересен тот факт, что флагманская версия Qwen2.5-VL-72B показывает результаты, сравнимые с такими известными моделями, как GPT-4o и Claude 3.5 Sonnet, а более компактные версии (7B и 3B) остаются конкурентоспособными в условиях ограниченных вычислительных ресурсов.
Заключение
Qwen2.5-VL – это не просто очередное обновление линейки VLM, а настоящий прорыв в области мультимодальных моделей. Впечатляющие возможности в локализации объектов, анализе документов и обработке видео, а также инновационные архитектурные решения делают эту модель крайне перспективной для применения как в исследовательских, так и в практических задачах.
Интересно, что новая модель не только демонстрирует выдающиеся результаты на специализированных бенчмарках, но и способна выступать в роли интерактивного агента, что открывает возможности для создания умных систем управления и поддержки принятия решений на базе ИИ. Отмечу, что расширение обучающего датасета до 4.1 триллиона токенов, что является важным шагом для повышения универсальности модели.
Воспользоваться моделью можно по ссылке.
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Источник: habr.com