Jun, 2024

NaRCan: 自然精炼的标准图像与扩散先验相结合的视频编辑

TL;DR提出了一种视频编辑框架 NaRCan,通过集成混合变形场和扩散先验生成高质量的自然规范图像来表示输入视频,该方法利用单应性来建模全局运动,并使用多层感知器(MLPs)来捕捉局部残余变形,增强了模型处理复杂视频动态的能力。通过在训练的早期引入扩散先验,我们的模型确保生成的图像保持高质量自然外观,使得生成的规范图像适用于视频编辑中的各种下游任务,这是当前的基于规范的方法所无法实现的。此外,我们还结合了低秩自适应(LoRA)微调方法,并引入了噪音和扩散先验更新调度技术,将训练过程加快了 14 倍。广泛的实验结果表明,我们的方法在各种视频编辑任务中胜过现有方法,并产生了连贯且高质量的编辑视频序列。请参阅我们的项目网页以获取视频结果。