LFM2-VL: компактный ИИ от Liquid AI, который помещается в смартфон

Компания Liquid AI представила LFM2-VL — новое поколение базовых мультимодальных моделей, способных работать с текстом и изображениями, оптимизированных для быстрой и экономичной работы на любом устройстве — от смартфонов и ноутбуков до умных часов и встраиваемых систем.

Разработчики обещают мгновенный отклик, высокую точность и гибкость, подходящую для реальных сценариев применения.

LFM2-VL — это развитие архитектуры LFM2, представленной чуть больше месяца назад и заявленной как «самая быстрая на рынке модель для работы прямо на устройстве». Её особенность — система linear input‑varying (LIV), при которой веса модели генерируются на лету под каждый входной запрос. Теперь эту технологию расширили до полноценной мультимодальной обработки, с поддержкой переменного разрешения для текста и изображений.

По словам Liquid AI, новинка способна работать на GPU вдвое быстрее, чем сопоставимые мультимодальные модели, при этом не уступая им по качеству на популярных тестах.

«Эффективность — это наш продукт», — написал сооснователь и CEO Liquid AI Рамин Хасани в посте на X, анонсируя новое семейство:

https://x.com/ramin_m_h/status/1955332731942174960Два варианта под разные задачи

В линейку вошли две модификации:

LFM2-VL-450M — сверхэкономичная модель с менее чем полумиллиардом параметров, рассчитанная на устройства с крайне ограниченными ресурсами.

LFM2-VL-1.6B — более мощная версия, всё ещё достаточно компактная для работы на одной видеокарте или прямо на пользовательских устройствах.

Обе модели обрабатывают изображения в родном разрешении до 512×512 пикселей, без искажений и ненужного увеличения. Если картинка больше, система нарезает её на непересекающиеся фрагменты и добавляет уменьшенную копию для общего контекста. Такой подход позволяет модели видеть и мельчайшие детали, и общую композицию кадра.

О компании Liquid AI

Liquid AI основали бывшие исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (Computer Science and Artificial Intelligence Laboratory, CSAIL), поставив перед собой цель создать архитектуру ИИ, способную выйти за рамки привычной модели‑трансформера.

Флагманская разработка компании — Liquid Foundation Models (LFM) — базируется на принципах динамических систем, цифровой обработки сигналов и численных методов линейной алгебры. Эти универсальные модели справляются с текстом, видео, аудио, временными рядами и прочими последовательными данными.

В отличие от традиционных архитектур, подход Liquid позволяет добиться конкурентной, а порой и превосходящей производительности, при этом расходуя значительно меньше вычислительных ресурсов. Модели можно подстраивать в реальном времени прямо в процессе работы, при минимальных требованиях к памяти. Благодаря этому LFM одинаково хорошо подходят как для крупных корпоративных систем, так и для компактных решений «на краю» — там, где ресурсы ограничены.

В июле 2025 года компания расширила стратегию, представив Liquid Edge AI Platform (LEAP) — кроссплатформенный SDK, упрощающий запуск небольших языковых моделей прямо на мобильных и встроенных устройствах.

LEAP не зависит от операционной системы, поддерживает iOS и Android, интегрируется как с моделями Liquid, так и с другими открытыми SLM и включает библиотеку моделей объёмом от 300 МБ — достаточно маленьких, чтобы запускаться даже на современных смартфонах с минимальным объёмом ОЗУ. Приложение‑компаньон Apollo даёт разработчикам возможность тестировать модели полностью офлайн.

Баланс скорости и качества: техническое устройство

В основе LFM2-VL — модульная архитектура, сочетающая языковую модель, визуальный энкодер SigLIP2 NaFlex и мультимодальный проектор.

Проектор включает двухслойный MLP‑коннектор с приёмом pixel unshuffle, который уменьшает количество токенов изображения и повышает пропускную способность.

Пользователь может настраивать параметры — например, максимальное число токенов или фрагментов изображения, — балансируя между скоростью и качеством в зависимости от сценария. Обучение модели велось на примерно 100 миллиардах мультимодальных токенов, собранных из открытых датасетов и синтетических данных, созданных внутри компании.

Производительность и тесты

Модели показали достойные результаты на ряде мультимодальных бенчмарков: LFM2-VL-1.6B уверенно выступила в RealWorldQA (65,23), InfoVQA (58,68) и OCRBench (742), а также сохранила хорошие показатели в задачах мультимодального рассуждения.

В тестах на скорость LFM2-VL продемонстрировала лучшее время обработки на GPU в своём классе — на стандартной нагрузке с изображением 1024×1024 и коротким текстовым запросом.

Лицензия и доступность

Модели LFM2-VL уже доступны на Hugging Face, вместе с примером кода для дообучения в Colab. Они совместимы с библиотеками Hugging Face transformers и TRL.

Выпуск сопровождается собственной лицензией LFM1.0, которую в Liquid описывают как основанную на принципах Apache 2.0, но полный текст пока не опубликован.

Делегируйте рутинные задачи вместе с BotHub! Сервис доступен без VPN, принимаются российские карты. По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии