Разработчики Google представили языковую модель Gemma 4 12B, которая призвана обеспечить запуск мультимодального искусственного интеллекта непосредственно на потребительских ноутбуках. Модель занимает промежуточное положение между компактной версией E4B и тяжелой модификацией 26B Mixture of Experts. Главной конструктивной особенностью новинки стал отказ от традиционных раздельных кодировщиков для обработки разных типов контента. Визуальные данные и звуковые сигналы теперь поступают напрямую в основную текстовую сеть, что снижает задержки и уменьшает требования к ресурсам.
Для работы с изображениями здесь применяется легкий модуль встраивания, выполняющий одно матричное умножение с последующей нормализацией, а аудиосигнал проецируется сразу в общее пространство текстовых токенов. Благодаря оптимизации архитектуры новинка демонстрирует результаты тестирования, близкие к показателям старшей версии 26B, расходуя при этом вдвое меньше памяти. Для локального запуска ИИ-агентов на компьютере достаточно иметь 16 ГБ видеопамяти или объединенной оперативной памяти. Подобная автономность позволяет выполнять сложные многошаговые логические задачи без отправки запросов в облако.
Продукт распространяется под свободной лицензией Apache 2.0 и уже доступен для интеграции в различные экосистемы. Дополнительно встроенные блоки предсказания Multi-Token Prediction помогают уменьшить время отклика при генерации ответов.
Источник: mobile-review.com