Alibaba сделала один из самых заметных шагов в своей стратегии открытых технологий. Компания выложила в открытый доступ исходный код Qwen3-VL — новой мультимодальной модели, которая объединяет текстовые и визуальные возможности. В отличие от традиционных LLM, работающих в основном с текстом, Qwen3-VL способна анализировать изображения, видео и управлять интерфейсами, что выводит её на новый уровень применения в реальных бизнес-задачах.
Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение OCR-поддержки с 19 до 32 языков, включая редкие алфавиты и сложный наклонный текст. Важный технологический прорыв — работа с контекстом длиной 256 тысяч токенов с возможностью расширения до миллиона. Это значит, что модель может анализировать огромные документы, массивы изображений или целые фильмы без потери качества.
Инженеры подчёркивают, что Qwen3-VL можно использовать для самых разных сфер:
• в бизнесе — для автоматизации офисных задач, построения диаграмм в Draw.io или управления графическими интерфейсами;
• в медицине — для анализа снимков и выявления рисков;
• в промышленности — для мониторинга объектов в реальном времени.
Публикация исходного кода — стратегический ход: Alibaba делает ставку на сообщество разработчиков, чтобы стимулировать появление экосистемы вокруг Qwen. Это ответ не только конкурентам из Китая, но и глобальным игрокам вроде OpenAI и Google, которые традиционно закрывают свои топовые решения.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник: habr.com