Nvidia выпустила NVLM 1.0 – собственную мультимодальную LLM, которая на некоторых тестах опережает GPT-4o

NVLM 1.0 (NVIDIA Vision Language Model) – это семейство открытых мультимодальных LLM, состоящее из моделей NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) и NVLM-H (Hybrid Model) на 34B и 72B. Модели особенно хорошо показывают себя на визуальных задачах. Например, на бенчмарке OCRBench, который проверяет способность модели считывать текст с картинки, NVLM-D обогнала даже GPT-4o – последнюю мультимодальную модель от OpenAI. А еще модель понимает мемы, разбирает человеческий почерк и хорошо отвечает на вопросы, чувствительные к точному местоположению чего-либо на картинке.

На вопросах по математике модель тоже выделяется: обгоняет LLM от Google и всего на 3 пункта отстает от ведущей модели Claude 3.5 известного стартапа Anthropic. Внизу в таблице представлены все опубликованные тесты, и обратите внимание, насколько высоких относительно других открытых моделей (даже бОльшего размера) результатов удалось добиться Nvidia.

Три разные модели семейства имеют схожую архитектуру, но обладают разными особенностями и, в частности, по-разному обрабатывают изображения. NVLM-D использует для картинок предобученный энкодер, который соединен с обычным двухслойным перцептроном. NVLM-Х же для обработки токенов изображения использует механизм cross-attention. У каждого из подходов есть недостатки и преимущества. Например, NVLM-D более экономный относительно количества параметров, но ест больше GPU и хуже, чем NVLM-X, обрабатывает картинки с высоким разрешением. Так что модель NVLM-H стала чем-то средним между эффективной и быстрой NVLM-D и точной NVLM-Х. Подробнее обо всех упомянутых алгоритмах, языковых моделях и новых релизах можно прочитать в нашем тг-канале Data Secrets (мы выкладываем только самое полезное, свежее и интересное!).

Больше технических деталей можно найти в статье. Веса самих моделей скоро можно будет найти на Hugging Face, а в этом репозитории лежит код.

Источник: habr.com

0 0 голоса

Рейтинг новости

20636

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”