Всего через два месяца после выпуска своей последней модели ИИ компания* Meta представила новую версию — Llama 3.2. Это первая открытая модель, которая может обрабатывать как изображения, так и текст.
Llama 3.2 позволит разработчикам создавать более сложные ИИ-приложения, например, приложения дополненной реальности для анализа видео в реальном времени, визуальные поисковые системы для сортировки изображений по содержанию и инструменты для суммирования больших текстов.
Meta* утверждает, что новая модель проста в использовании. Разработчикам нужно будет лишь добавить «мультимодальность» и показать Llama изображения, чтобы она могла их интерпретировать, — пояснил Ахмад Аль-Дахле, вице-президент Meta по генеративному ИИ.
Другие компании, такие как OpenAI и Google, уже выпустили подобные мультимодальные модели в прошлом году, так что Meta догоняет их в этом направлении. Поддержка обработки изображений также важна для Meta, поскольку она развивает ИИ для устройств, например, смарт-очков Ray-Ban Meta.
Llama 3.2 включает две визуальные модели (с 11 и 90 миллиардами параметров) и две более лёгкие текстовые модели (с 1 и 3 миллиардами параметров). Меньшие модели специально разработаны для работы на мобильных устройствах с процессорами Qualcomm и MediaTek.
Модель Llama 3.1, выпущенная в июле, всё ещё актуальна: она содержит версию с 405 миллиардами параметров, которая будет лучше справляться с генерацией текстов.*признана в РФ экстремистской организацией и запрещена
Источник: habr.com