Alibaba выпустила мощную мультимодальную модель Qwen3-VL, доступную в двух версиях — 4B и 8B параметров. Она работает с текстом и изображениями, поддерживает контекст длиной 256 тысяч токенов, который при необходимости может быть расширен до 1 миллиона, и демонстрирует впечатляющую способность распознавать как объекты, так и сцены в реальном мире.
Одной из главных особенностей Qwen3-VL стала поддержка открытой лексики. Модель понимает всё: от бытовых товаров и логотипов до знаменитостей и архитектурных объектов. Благодаря этому она способна не просто анализировать изображения, а интерпретировать их контекст.
В Qwen3-VL реализованы два ключевых режима работы: Instruct и Thinking. Первый предназначен для интерактивных задач вроде генерации текста, кода и анализа данных. Второй для более сложных вычислительных процессов, включая решение математических задач и логические рассуждения, где требуется поэтапное мышление.
Отдельного внимания заслуживает система OCR. В новой версии она обучена на данных с низким качеством сканов, размытых фото и рукописных документов. Модель уверенно извлекает текст даже из наклонённых или частично закрытых изображений, поддерживая при этом 32 языка, включая казахский, китайский, арабский и японский.
По многим задачам Qwen3-VL демонстрирует результаты, сопоставимые с куда более крупной Qwen2.5-VL-72B, а иногда даже превосходит её, особенно в части пространственного понимания изображений и текстово-графического рассуждения.
Модель распространяется под лицензией Apache 2.0, что делает её одной из самых доступных и мощных мультимодальных систем с открытым исходным кодом на сегодняшний день. Код, весы и демо уже доступны на платформе Hugging Face, а Alibaba Cloud готовит интеграцию Qwen3-VL в свои сервисы AI Workspace и ModelScope.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com