Oct, 2023

LOVECon:基于文本的无需训练的长视频编辑与 ControlNet 控制

TL;DR本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线,通过分割长视频并采用新颖的跨窗口注意机制,以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息,并将结果整合到生成的潜在状态中,同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究,验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。