Apple выпустила новую линейку FastVLM — это ультраскоростные VL-модели с гибридным энкодером FastViTHD, который уменьшает количество визуальных токенов и ускоряет их обработку.
По сравнению с LLaVA-1.5, FastVLM обеспечивает в 3,2 раза более быстрое время до первого токена (TTFT) при аналогичном уровне качества. А в сопоставлении с LLaVa-OneVision новая модель достигает тех же результатов на бенчмарках, но при этом использует энкодер, который в 3,4 раза меньше.
В семейство входят три модели:
• 500 млн параметров
• 1,5 млрд параметров
• 7 млрд параметров
Все они уже доступны на Hugging Face — правда, пока только для некоммерческого использования.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com