Jul, 2024

InVi: 使用现成的扩散模型进行视频中的对象插入

TL;DR通过使用现成的文本到图像潜在扩散模型,我们引入了InVi方法,用于在视频中插入或替换对象(称为补全),目标是控制性地操作对象并将其与背景视频无缝融合,我们采用了两个关键挑战的方法:利用补全和匹配来获得高质量的控制和融合;为了确保时序一致性,我们将扩散模型的自注意层替换为扩展注意层。实验证明,InVi方法在实现逼真的对象插入以及帧之间的一致融合和时序一致性方面优于现有方法。