Вышла новая масштабная мультимодальная world-модель

Emu3.5 представлена как новая масштабная мультимодальная world-модель, которая объединяет текст и изображение в единое пространство восприятия. Она способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение и действие в единую систему.

Модель обучена на более чем десяти триллионах чередующихся vision-language токенов и дополнительно улучшена с помощью обучения с подкреплением. Это позволило Emu3.5 развить сильные способности к рассуждению, а также научиться уверенно генерировать и редактировать контент в смешанных форматах.

Отдельное внимание заслуживает новый метод DiDA (Discrete Diffusion Adaptation). Он переводит процесс последовательного декодирования в параллельное двустороннее предсказание в дискретном пространстве токенов. По сути, модель перестаёт работать по принципу «токен за токеном», что даёт до двадцатикратного ускорения инференса без потери качества.

По внутренним тестам, Emu3.5 уже превосходит предыдущие версии и конкурирующие решения, включая Nano Banana, в задачах мультимодальной генерации, редактирования изображений и интеграции текста с визуальными элементами.

Попробовать Emu3.5 можно на официальном сайте проекта или в открытом репозитории на GitHub.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”