Исследователи лаборатории Tencent представили ToonComposer — нейросетевой инструмент для генерации аниме по ключевым кадрам. В качестве минимальных входных данных нейросети надо передать один карандашный набросок и один цветной кадр в качестве референса.
На сайте проекта отмечают, что создание мультфильмов состоит из трёх ключевых шагов:
Кейфрейминг — создание последовательности ключевых кадров.
Интеркадрирование — заполнения пространства между ключевыми кадрами.
Колоризация — раскрашивание всех полученных кадров.
Над каждым работают профессиональные художники, которые вручную отрисовывают объекты и тратят на это время. Исследователи решили ускорить процесс за счёт сокращения рутинных процессов интеркадрировани и колоризации, чтобы художники могли сосредоточиться на детализации ключевых кадров.
ToonComposer — нейросетевой инструмент, который генерирует промежуточные кадры, раскрашивает их и сшивает в единое видео. Проект построен на базе Wan 2.1 Image-to-Video 14B и собственных весов ToonComposer.
На вход модель принимает один эскиз и один референсный кадр в цвете. Этого будет достаточно для генерации видео. Также мультипликаторы могут добавлять дополнительные кадры для более точного управления происходящим в кадре. Разработчики считают, что главное преимущество ToonComposer в едином процессе генерации. Благодаря этому инструмент не накапливает ошибки на каждом этапе, как это происходит в других подобных системах.
ToonComposer можно запустить локально или развернуть на удалённом сервере. Для локального запуска разработчики рекомендуют использовать выделенные графические ускорители, но не уточняют, сколько памяти необходимо. Также для запуска требуется Python 3.10, PyTorch 2.6.0, flash-attn 2.8 и gradio 5.25.2.
Запустить ToonComposer можно вместе со следующими параметрами:
—resolution — разрешение 480p или 608p (по умолчанию 480p);
—device — устройства для запуска cuda:0 или cpu (по умолчанию cuda:0);
—wan_model_dir — локальный каталог Wan2.1 (необязательный);
—tooncomposer_dir — локальный каталог ToonComposer 480p/608p (необязательный).
Код проекта открыт и опубликован на GitHub.
Источник: habr.com