Feb, 2024

2D Triplane 和 3D 小波表示的混合视频扩散模型

TL;DR提出了一种名为 HVDM 的混合视频扩散模型,能更有效地捕捉视频的时空依赖关系并生成高质量的视频。通过混合视频自动编码器,提取视频的解离表示,包括全局上下文信息、本地体积信息和频率信息,以实现更全面的视频潜变量并丰富生成视频的细节和结构。实验证明该方法在视频生成质量方面达到了最先进水平,并具有广泛的视频应用。