Исследователи из ByteDance и Стэнфорда представили новый метод генерации длинных видео под названием Mixture of Contexts. Он призван решить ключевую проблему, с которой сталкиваются современные модели: по мере увеличения длины ролика внимание «раздувается», вычислительные затраты растут, детали теряются, персонажи становятся непоследовательными, а сюжет уходит в сторону.
Новый подход меняет сам принцип работы с контекстом. Видео разбивается на части — кадры, шоты и подписи. Вместо того чтобы учитывать всю историю сразу, модель выбирает только те фрагменты, которые действительно важны для текущего запроса. Для этого применяется простая оценка релевантности, где признаки чанков сравниваются с запросом.
При этом система всегда опирается на два «якоря»: полный текстовый промпт и локальный шот для сохранения деталей. Дополнительно используется causal mask, который блокирует обращение к будущим кадрам и предотвращает зацикливания. Flash Attention применяется лишь к выбранным чанкам, что позволяет не зависеть от общей длины видео, а работать только с полезным контекстом.
Результаты выглядят впечатляюще: количество вычислений снижается в семь раз, скорость генерации возрастает более чем в два раза, а на длинных сценах с контекстом до 180 тысяч токенов удаётся отсечь около 85% ненужного внимания.
Практический эффект такой оптимизации очевиден. Короткие клипы сохраняют качество, длинные сцены становятся более плавными, персонажи стабильнее, а общее время генерации значительно сокращается. По сути, модель получает «память» на минуты видео без необходимости менять базовую архитектуру.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com