Jun, 2024

ViD-GPT:在视频扩散模型中引入 GPT 风格的自回归生成

TL;DR利用巨大语言模型和 GPT,我们将因果生成引入视频扩散模型中,通过引入因果时序注意力和以帧为提示的设计,我们提出了 Video Diffusion GPT(ViD-GPT),能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制,我们还能够消除重叠帧的冗余计算,显著提高了推理速度。广泛的实验证明,我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。