Cohere выпустила новую мультимодальную модель Command A Vision

Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.

Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON. Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.

Обратите внимание, что использование этого инструмента не поддерживается в модели. Также важно отметить, что Command A Vision может принимать изображения в качестве входных данных, но не генерирует их.

Command A Vision отлично подходит для корпоративных задач, таких как:

анализ диаграмм, графиков и схем;

извлечение и анализ таблиц в изображениях;

оптическое распознавание символов (OCR) и ответы на вопросы;

обработка изображений на естественном языке.

Модель уже доступна на платформе Cohere и в репозитории Hugging Face для исследовательских целей. Для запуска понадобятся 2 GPU A100 или один H100 под квантованную 4-битную версию.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии