Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Инженеры китайской компании Alibaba представили мультимодальную модель машинного обучения mPLUG-Owl3. С её помощью можно анализировать текст, изображения и видео. Разработчики делают упор именно на скорость работы нейросети, отмечая, что на обработку двухчасового видео уйдёт всего четыре секунды.

В основе mPLUG-Owl3 используется модель Qwen2, которую доработали и оптимизировали. Благодаря этому в шесть раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать по 400 изображений в секунду. Кроме того, инженеры использовали специальный блок HATB (Hyper Attention Transformer), который связывает визуальные и текстовые признаки. Так, нейросеть, например, может искать визуальные образы на основе текста.

Код проекта открыт и опубликован на GitHub. Также инженеры поделились всем необходимым для работы на портале Hugging Face и его китайском аналоге Model Scope. Есть полный текст исследования, в котором разработчики подробно рассказали о работе mPLUG-Owl3.

Код инференса для работы с изображениямиfrom PIL import Image from transformers import AutoTokenizer, AutoProcessor from decord import VideoReader, cpu # pip install decord model_path = ‘mPLUG/mPLUG-Owl3-7B-240728’ tokenizer = AutoTokenizer.from_pretrained(model_path) processor = model.init_processor(tokenizer) image = Image.new(‘RGB’, (500, 500), color=’red’) messages = [ {«role»: «user», «content»: «»» Describe this image.»»»}, {«role»: «assistant», «content»: «»} ] inputs = processor(messages, images=image, videos=None) inputs.to(‘cuda’) inputs.update({ ‘tokenizer’: tokenizer, ‘max_new_tokens’:100, ‘decode_text’:True, }) g = model.generate(**inputs) print(g)

Код инференса для работы с видеоfrom PIL import Image from transformers import AutoTokenizer, AutoProcessor from decord import VideoReader, cpu # pip install decord model_path = ‘mPLUG/mPLUG-Owl3-7B-240728’ tokenizer = AutoTokenizer.from_pretrained(model_path) processor = model.init_processor(tokenizer) messages = [ {«role»: «user», «content»: «»» Describe this video.»»»}, {«role»: «assistant», «content»: «»} ] videos = [‘/nas-mmu-data/examples/car_room.mp4’] MAX_NUM_FRAMES=16 def encode_video(video_path): def uniform_sample(l, n): gap = len(l) / n idxs = [int(i * gap + gap / 2) for i in range(n)] return [l[i] for i in idxs] vr = VideoReader(video_path, ctx=cpu(0)) sample_fps = round(vr.get_avg_fps() / 1) # FPS frame_idx = [i for i in range(0, len(vr), sample_fps)] if len(frame_idx) > MAX_NUM_FRAMES: frame_idx = uniform_sample(frame_idx, MAX_NUM_FRAMES) frames = vr.get_batch(frame_idx).asnumpy() frames = [Image.fromarray(v.astype(‘uint8’)) for v in frames] print(‘num frames:’, len(frames)) return frames video_frames = [encode_video(_) for _ in videos] inputs = processor(messages, images=None, videos=video_frames) inputs.to(‘cuda’) inputs.update({ ‘tokenizer’: tokenizer, ‘max_new_tokens’:100, ‘decode_text’:True, }) g = model.generate(**inputs) print(g)

Источник: habr.com

0 0 голоса

Рейтинг новости

24349

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”