В 3,2 раза быстрее конкурентов: Apple запустила FastVLM

Apple выпустила новую линейку FastVLM — это ультраскоростные VL-модели с гибридным энкодером FastViTHD, который уменьшает количество визуальных токенов и ускоряет их обработку.

По сравнению с LLaVA-1.5, FastVLM обеспечивает в 3,2 раза более быстрое время до первого токена (TTFT) при аналогичном уровне качества. А в сопоставлении с LLaVa-OneVision новая модель достигает тех же результатов на бенчмарках, но при этом использует энкодер, который в 3,4 раза меньше.

В семейство входят три модели:

• 500 млн параметров

• 1,5 млрд параметров

• 7 млрд параметров

Все они уже доступны на Hugging Face — правда, пока только для некоммерческого использования.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии