通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
EffiVED 是一种基于扩散的高效模型,支持指导视频编辑;采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练;实验证明 EffiVED 生成高质量编辑视频且执行速度快,并且数据收集方法显著改善编辑性能,有望解决视频编辑数据的稀缺问题。
Mar, 2024
通过建立一个优雅而高效的 TCVE(Temporal-Consistent Video Editing)方法,本研究在大规模文本到图像(T2I)扩散模型的基础上,解决了文本引导视频编辑中的时间不连贯问题,取得了视频时序一致性和编辑能力方面的最新突破,并超越了该领域的现有基准。
Aug, 2023
本文介绍了一种名为 Neutral Editing(NeuEdit)框架的概念,通过改变视频中人物 / 物体的动作,实现了复杂的非刚性编辑。该框架通过利用输入的视频和文本,没有其他辅助工具(如视觉蒙版、视频字幕),以模型无关的方式增强了基于扩散编辑系统的调整编辑过程。对大量视频进行了广泛实验,证明了 NeuEdit 框架的适应性和有效性。
Dec, 2023
引入动态神经辐射场(NeRF)作为人物中心视频表示,将视频编辑问题简化为三维空间编辑任务,通过变形场在整个视频上进行编辑。
Oct, 2023
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅需大约一分钟即可处理一个视频。
Jun, 2023
本文提出了 DreamEditor,一种使用文本提示对神经场进行编辑的新框架,用于场景重建,可以实现精确编辑神经场保持平滑的几何纹理,并且在定量和定性评估中明显超过以前的工作。
我们引入了一种名为 DN2N 的文本驱动编辑方法,使用现成的基于文本的图像编辑模型修改 3D 场景图片,并提出了一种去除噪声扰动的训练数据生成方法,以及交叉视图正则化项来帮助泛化 NeRF 模型,实现了友好、直观和实用的用户编辑体验,并实现了多种编辑类型的效果。
Sep, 2023
提出了一种名为 “GenVideo” 的视频编辑方法,它利用目标图像感知的 T2I 模型进行编辑,能够处理具有不同形状的目标对象的编辑,并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明,GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。
Apr, 2024
通过利用预训练的 T2I 扩散模型处理空间和时空切片,我们提出了一种基于文本的视频编辑方法 Slicedit,能够生成保留原始视频结构和动作并满足目标文本的视频,相对于现有竞争方法,我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。