Команда Hugging Face исследовала сколько на самом деле тратит электричества создание видео с помощью ИИ. Оказалось, что если удвоить длительность ролика или разрешение кадра, расход электричества увеличивается почти вчетверо. Это больше, чем можно ожидать: многие сервисы по созданию видео тарифицируют услуги по секундам, то есть линейно.
Авторы измерили работу открытых видеомоделей, в том числе WAN2.1-T2V, и выяснили простую закономерность: затраты квадратичны по числу кадров (то есть по длительности и/или фреймрейту) и размеру кадра (разрешению), а линейны только по числу шагов денойзинга.
Рост затрат связан с устройством самих видеомоделей. Чтобы «понять» кадр, диффузионный трансформер использует механизм внимания: он сопоставляет каждый кусочек изображения со всеми остальными и так строит связи. Когда мы увеличиваем разрешение или добавляем новые кадры, количество таких сопоставлений растёт не линейно, а квадратично — каждый новый фрагмент надо сравнить со множеством других.
Очевидно, что для экономии энергии можно уменьшить разрешение, длительность и частоту кадров — но это напрямую бьет по качеству и творческой свободе. Поэтому авторы предлагают разработчикам моделей активнее исследовать возможности кэширования повторяющихся фрагментов и промежуточных результатов, не пересчитывать статические области кадра, а также проводить оптимизацию конвейера обработки — убирать лишние проходы и дубли операций. Такие приёмы экономят электричество без заметной потери качества.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com