Dec, 2023

F3 剪枝:一种无需训练并具有广泛适用性的剪枝策略,用于更快速和更精细的文本到视频合成

TL;DR近期的文本到视频综合技术在大规模数据集上利用 Transformer 或扩散模型取得了突破,但是推断这些大规模模型代价高昂。为了解决这一问题,研究探索了两个主流的文本到视频模型(基于 Transformer 和扩散模型)的推断过程,并发现了它们在时间注意力模块中的冗余性。因此,提出了一种无需重新训练的普遍修剪策略,称为 F3-Pruning,用于修剪冗余的时间注意力权重。通过在三个数据集上对经典的基于 Transformer 的模型 CogVideo 和典型的扩散模型 Tune-A-Video 进行广泛实验,验证了 F3-Pruning 在推断加速、质量保证和广泛适用性方面的有效性。