Dec, 2023

通过遮罩扩散实现的互动视频生成

TL;DR最近,在文本到视频生成方面取得了很大的进展,目前的模型能够生成高质量、逼真的视频。然而,这些模型缺乏用户交互控制和生成视频的能力,这可能开启新的应用领域。本论文提出了一种通过扩展性 - 自适应控制来加强扩散型视频生成模型的输出的方法。该模块是一种训练免费、没有推理开销的自定义部件,可以与现有的视频生成模型相结合,实现时空控制。我们还提出了一个用于交互式视频生成任务的评估基准。通过广泛的定性和定量评估,我们证明了 Peekaboo 可以实现视频生成控制,并且在 mIoU 方面超过基准模型的增益高达 3.8 倍。