Команда платформы Hugging Face выпустила коллекцию компактных визуально-текстовых моделей машинного обучения SmolVLM. Их главное преимущество в том, что модели можно развернуть локально на устройстве с ограниченными ресурсами. Код проекта открыт.
Коллекция состоит из четырёх моделей:
SmolVLM Base — для файнтюнинга;
SmolVLM Synthetic — с синтетическими данными;
SmolVLM Instruct — настроенные инструкции для использования в приложениях.
VLM (Vision-Language Model) — тип мультимодальных моделей машинного обучения, которые объединяют обработку визуальных и текстовых данных. Они предназначены для распознавания связей между текстом и образами на изображениях или видео.
Модели построена на архитектуре Idefics3, которую авторы проекта модернизировали. Разработчики отказались от языковой модели Llama 3.1 8B в пользу SmolLM2 1.7B, перешли на использование патчей размером 384×384 пикселей вместо 364×364 и расширили контекстное окно до 16 тыс. токенов, что позволило добавить возможность работать одновременно с двумя изображениями. Все модели в коллекции мультимодальные (изображения и текст).
Разработчики отмечают, что конкурентная модель Qwen2-VL использует 16 тыс. токенов для обработки изображений и текстовых запросов. SmolVLM для этого надо всего 1,2 тыс. токенов. Это позволяет нейросети обрабатывать данные до 4,5 раза быстрее и генерировать до 16 раз быстрее, чем Qwen2-VL. В итоге это позволяет экономить ресурсы и использовать модели локально. Важно отметить, что нейросеть поддерживает только английский язык.
Модели опубликовали на площадке Hugging Face. Код проекта открыт и распространяется по лицензии Apache 2.0. Демо развернули в отдельном пространстве.
Источник: habr.com