Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.
Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON. Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.
Обратите внимание, что использование этого инструмента не поддерживается в модели. Также важно отметить, что Command A Vision может принимать изображения в качестве входных данных, но не генерирует их.
Command A Vision отлично подходит для корпоративных задач, таких как:
анализ диаграмм, графиков и схем;
извлечение и анализ таблиц в изображениях;
оптическое распознавание символов (OCR) и ответы на вопросы;
обработка изображений на естественном языке.
Модель уже доступна на платформе Cohere и в репозитории Hugging Face для исследовательских целей. Для запуска понадобятся 2 GPU A100 или один H100 под квантованную 4-битную версию.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com