Alibaba выпустила две новые мультимодальные модели — Qwen3-VL-2B и Qwen3-VL-32B. Последняя уже успела привлечь внимание исследователей. Она демонстрирует результаты, сопоставимые и даже превосходящие те, что показывают модели вроде GPT-5 mini и Claude 4 Sonnet, особенно в задачах STEM, визуальных вопросах (VQA), распознавании текста (OCR), анализе видео и агентных сценариях.
Несмотря на «всего» 32 миллиарда параметров, Qwen3-VL-32B уверенно конкурирует с системами в десятки раз крупнее — до 235 миллиардов параметров. На ряде бенчмарков, включая OSWorld, она показывает абсолютное лидерство. Такой результат стал возможен благодаря новой архитектуре с «иерархическим вниманием», которая позволяет эффективно объединять текст, изображение и видео в одном контексте.
Alibaba утверждает, что Qwen3-VL-32B может анализировать кадры в видео последовательно, понимая сюжет и причинно-следственные связи, а не просто описывая изображение. Это делает модель особенно полезной для задач видеоаналитики, автономных агентов и образовательных сценариев, где важна способность рассуждать.
Попробовать обе модели можно уже сейчас через Hugging Face и платформу Qwen Studio, где доступны демо и API для интеграции в собственные продукты.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com