Вышла мультимодальная модель, разработанная для понимания интерфейсов

Представлена Holo2, мультимодальная модель нового поколения, разработанная для понимания интерфейсов, эффективной навигации и рассуждений в веб-пространстве, на десктопах и мобильных устройствах. Модель демонстрирует существенное улучшение ключевых показателей на бенчмарках UI-grounding, достигая 66,1% на ScreenSpot-Pro и 76,1% на OSWorld-G, что выше предыдущих версий на 3–5% и превосходит все существующие аналоги.

Архитектура Holo2 основана на Qwen3-VL и обеспечивает глубокое понимание интерфейсов, улучшенную навигацию и способность рассуждать, чего не хватало предыдущим версиям. Модель одинаково хорошо работает в браузере, на Ubuntu и Android, что делает её удобной для интеграции в разные среды и платформы.

Флагманская версия 30B-A3B использует Mixture of Experts, активируя только 3B параметров на каждом шаге, что позволяет выдавать качество модели 30B при значительно меньшей вычислительной стоимости. Модель самостоятельно генерирует reasoning-токены, повышая точность и устойчивость к контексту. Holo2 полностью совместима с архитектурой Surfer 2 и ReAct-пайплайнами, что делает её подходящей для создания продвинутых UI-агентов.

Развёртывание Holo2 возможно напрямую через vLLM и любой фреймворк, совместимый с Qwen3-VL. Лицензии модели распределены следующим образом: версии 4B и 8B доступны под Apache-2, а версия 30B-A3B предназначена только для некоммерческого использования.

Подробности, инструкции и примеры использования доступны в блоге компании, на HuggingFace и в Cookbook.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии