COVE:释放扩散特征对应的一致视频编辑
通过建立一个优雅而高效的 TCVE(Temporal-Consistent Video Editing)方法,本研究在大规模文本到图像(T2I)扩散模型的基础上,解决了文本引导视频编辑中的时间不连贯问题,取得了视频时序一致性和编辑能力方面的最新突破,并超越了该领域的现有基准。
Aug, 2023
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
Jul, 2023
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
本文提出 DIffusion FeaTures (DIFT) 方法来确立图像之间的对应关系,在稳定扩散的情况下,DIFT 均能够在语义、几何和时间上优于弱监督方法以及其他对照组,尤其是在 SPair-71k 基准测试中,DIFT 相对于 DINO 和 OpenCLIP 的准确率分别提高了 19 个和 14 个点,即使在总体性能上表现相当的情况下,在 18 个类别中有 9 个可以超越最先进的监督方法。
Jun, 2023
通过引入时态依赖于现有的文本驱动扩散模型,使其能够生成一致的编辑对象外观,我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制,利用分层表示的概念将相邻帧的外观信息传播到下一帧,并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架,可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们方法展示了卓越的定性和定量结果。
Aug, 2023
通过利用预训练的 T2I 扩散模型处理空间和时空切片,我们提出了一种基于文本的视频编辑方法 Slicedit,能够生成保留原始视频结构和动作并满足目标文本的视频,相对于现有竞争方法,我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。
May, 2024
提出了一种名为 “GenVideo” 的视频编辑方法,它利用目标图像感知的 T2I 模型进行编辑,能够处理具有不同形状的目标对象的编辑,并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明,GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。
Apr, 2024
通过深度图和时序一致性约束,提出了一种强大且高效的零样本视频编辑方法 EVE,能够以可承受的计算和时间成本派生出令人满意的视频编辑结果,并构建了新的基准 ZVE-50 数据集以促进未来研究。
Aug, 2023
借鉴一致性模型 (CM) 的自洽性特性,我们提出了一种高效的零样本视频编辑方法 FastVideoEdit,能够减少编辑时间并提高编辑速度,同时保持可比较的生成质量。
Mar, 2024