Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision, объединяющую возможности обработки визуальных данных и текста в едином фреймворке. Модель способна не только распознавать изображения, но и рассуждать на их основе, решать сложные визуально-текстовые задачи, а также поддерживать мультиязычные кейсы, включая русский язык.

Ключевые особенности HunyuanVision включают глубокое понимание изображений и сцен (Visual Reasoning), поддержку нескольких языков (Multilingual Support), ведение диалогов на основе изображений и текста (Visual Dialogue) и способность рассуждать на уровне визуальных деталей (Thinking-on-Image). Эти возможности позволяют модели выполнять сложные задачи анализа, генерации и рассуждения по визуальной информации.

Версия HunyuanVision-1.5 демонстрирует продвинутые способности и высокую скорость работы. Модель показывает хорошие результаты при обработке мультиязычного текста, включая русский язык, хотя в некоторых случаях могут встречаться ошибки. Тем не менее, она уже готова для тестирования и использования в реальных сценариях.

Модель доступна через Tencent Cloud API и платформу LMArena (Direct Chat), а полный технический отчёт и веса модели Tencent обещает выпустить позже в октябре. Это позволит исследователям и разработчикам интегрировать HunyuanVision в собственные проекты и изучить её потенциал более подробно.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии