Moonshot AI представляет Kimi-VL: мощную модель ИИ для обработки текста, изображений и видео

Новая модель ИИ с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Модель Kimi-VL отличается способностью обрабатывать длинные документы, сложные рассуждения и понимать пользовательский интерфейс.

По данным Moonshot AI, Kimi-VL использует архитектуру «смесь экспертов», активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем у многих крупных моделей, — Kimi-VL показывает результаты, сопоставимые с результатами гораздо более крупных систем в различных тестах.

Модель может обрабатывать до 128 000 токенов в максимальном контексте, чего достаточно для обработки целой книги или длинной расшифровки видео. Moonshot AI сообщает, что Kimi-VL стабильно показывает высокие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.

Kimi-VL демонстрирует мощный визуальный анализ в различных сценариях.

Возможности Kimi-VL по обработке изображений примечательны. В отличие от некоторых систем, она может анализировать скриншоты или сложную графику, не разбивая их на более мелкие фрагменты. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В ходе одного теста он проанализировал рукопись, написанную от руки, выявил ссылки на Альберта Эйнштейна и объяснил их актуальность.

Ассистент шаг за шагом направляет пользователей от первоначальной настройки до активации функций защиты данных.

Система также функционирует как программный помощник, интерпретируя графические пользовательские интерфейсы и автоматизируя цифровые задачи. Компания Moonshot AI утверждает, что в тестах, в которых модель перемещалась по меню браузера или меняла настройки, она превзошла многие другие системы, включая GPT-4o.

По сравнению с другими моделями с открытым исходным кодом, такими как Qwen2.5-VL-7B и Gemma-3-12B-IT, Kimi-VL выглядит более эффективной. По данным Moonshot AI, она лидирует в 19 из 24 тестов, несмотря на то, что в ней гораздо меньше активных параметров. Сообщается, что в тестах MMBench-EN и AI2D она соответствует или превосходит результаты, которые обычно показывают более крупные коммерческие модели.

Kimi-VL-Thinking, имеющий всего 2,8 миллиарда активных параметров, превосходит более крупные модели в тесте MathVision.

Компания объясняет такую производительность своим подходом к обучению. Помимо стандартной контролируемой тонкой настройки, Kimi-VL использует обучение с подкреплением. Специализированная версия под названием Kimi-VL-Thinking была обучена выполнять более длительные логические операции, повышая производительность при выполнении задач, требующих более сложных размышлений, таких как математические вычисления.

Kimi-VL-A3B показывает высокие результаты в задачах по обработке видео и документов.

У Kimi-VL есть ограничения. Его текущий размер ограничивает производительность при выполнении задач, требующих больших объёмов языковых данных, или нишевых задач, и он по-прежнему сталкивается с техническими проблемами при работе с очень длинными контекстами, даже при расширенном окне контекста.

Moonshot AI заявляет, что планирует разработать более крупные версии моделей, включить в них больше обучающих данных и улучшить тонкую настройку. Заявленная долгосрочная цель компании — создать «мощную, но ресурсосберегающую систему», подходящую для реального использования в исследованиях и промышленности.

Ранее в этом году Moonshot AI выпустила Kimi k1.5, мультимодальную модель для сложных рассуждений, которая, по заявлению компании, не уступает GPT-4o в тестах. Kimi k1.5 доступна в веб-интерфейсе kimi.ai. Демонстрацию Kimi-VL можно найти на Hugging Face.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии