Alibaba открыла исходный код Qwen3-VL

Alibaba сделала один из самых заметных шагов в своей стратегии открытых технологий. Компания выложила в открытый доступ исходный код Qwen3-VL — новой мультимодальной модели, которая объединяет текстовые и визуальные возможности. В отличие от традиционных LLM, работающих в основном с текстом, Qwen3-VL способна анализировать изображения, видео и управлять интерфейсами, что выводит её на новый уровень применения в реальных бизнес-задачах.

Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение OCR-поддержки с 19 до 32 языков, включая редкие алфавиты и сложный наклонный текст. Важный технологический прорыв — работа с контекстом длиной 256 тысяч токенов с возможностью расширения до миллиона. Это значит, что модель может анализировать огромные документы, массивы изображений или целые фильмы без потери качества.

Инженеры подчёркивают, что Qwen3-VL можно использовать для самых разных сфер:

• в бизнесе — для автоматизации офисных задач, построения диаграмм в Draw.io или управления графическими интерфейсами;

• в медицине — для анализа снимков и выявления рисков;

• в промышленности — для мониторинга объектов в реальном времени.

Публикация исходного кода — стратегический ход: Alibaba делает ставку на сообщество разработчиков, чтобы стимулировать появление экосистемы вокруг Qwen. Это ответ не только конкурентам из Китая, но и глобальным игрокам вроде OpenAI и Google, которые традиционно закрывают свои топовые решения.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии