Компания Meta известна своими опенсорс LLM моделями: каждый раз их релизы производят фурор в ИИ-сообществе, обгоняя на бенчмарках передовые закрытые модели вроде GPT от OpenAI или Gemini от Google. Вот и в этот раз Meta «навела шороху», без предупреждений и анонсов выпустив свою первую мультимодальную LLM Llama 3.2.
На самом деле Llama 3.2 – это не одна модель, а целое семейство. Есть вариант поменьше и побыстрее на 11В параметров, и немного побольше на 90В. Обычно Meta также выпускает и более крупную и одновременно самую мощную модель примерно на 400В параметров, но часто она выходит позже моделей помладше. Ходят слухи, что так будет и в этот раз.
Однако даже уже вышедшие модели поразительно показывают себя на тестах. Внизу представлено их сравнение с передовыми моделями GPT-4o mini от OpenAI и Claude3 — Haiku от Anthropic, предположительно имеющими примерно схожее количество параметров. Обратите внимание, что Llama 3.2 90В бьет GPT-4o почти на всех Vision тестах, то есть на тех задачах, которые предполагают анализ картинок или, например, графиков.
Веса моделей уже доступны на Hugging Face. Инструкции по тому, как скачать оттуда модели, воспользоваться ими, или даже зафайнтюнить их под свои задачи, вы сможете найти в нашем тг-канале Data Secrets (мы выкладываем только самое полезное, свежее и интересное!)
Кроме мультимодальной Llama 3.2, компания также показала новые модели-малышки, которые работают только с текстом. Они имеют всего 1В и 3В параметров и предназначены, в основном, для локальных запусков или эффективного встраивания в корпоративную структуру. Несмотря на размер, модели также отлично показывают себя на бенчмарках, обгоняя известные Phi 3.5 и Gemma 2.
Кстати, любителей VR Meta тоже в обиде не оставили: на конференции Meta Connect, на которой были продемонстрированы все модели выше, были также показаны новые VR-очки Quest 3s за $300 (правда, прямо во время демонстрации они немного поломались, но с кем не бывает, правда?). Кроме того, вышли новые очки Meta Ray Ban: они обзавелись новыми ИИ-функциями и смогут, например, сканировать QR-коды, синхронно переводить разговор или набирать телефонные номера взглядом.
Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить!
Источник: habr.com