VidEdit:零样本和空间感知的文本驱动视频编辑
通过利用预训练的 T2I 扩散模型处理空间和时空切片,我们提出了一种基于文本的视频编辑方法 Slicedit,能够生成保留原始视频结构和动作并满足目标文本的视频,相对于现有竞争方法,我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。
May, 2024
使用 InFusion 框架,基于大型预训练图像扩散模型进行零样例基于文本的视频编辑,以实现丰富的概念编辑、时间一致性和连贯性。
Jul, 2023
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
借鉴一致性模型 (CM) 的自洽性特性,我们提出了一种高效的零样本视频编辑方法 FastVideoEdit,能够减少编辑时间并提高编辑速度,同时保持可比较的生成质量。
Mar, 2024
本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用,在形状、纹理和颜色上强制执行分层的跨帧约束,实现低成本下的全局样式和局部纹理的时空一致性。
Jun, 2023
EffiVED 是一种基于扩散的高效模型,支持指导视频编辑;采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练;实验证明 EffiVED 生成高质量编辑视频且执行速度快,并且数据收集方法显著改善编辑性能,有望解决视频编辑数据的稀缺问题。
Mar, 2024
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
我们提出了 Video Instruction Diffusion(VIDiff),这是一个统一的基础模型,专为广泛的视频任务设计,包括理解任务(如语言引导的视频对象分割)和生成任务(视频编辑和增强)。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果,并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。
Nov, 2023
一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架,通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑,实现了无需训练的时间一致的多属性视频编辑,并在编辑准确度和帧一致性方面表现优于其他基准方法。
Oct, 2023
基于 Zero-shot 指令引导的局部图像编辑方法 ZONE 通过转换用户提供的指令,实现了对特定图像区域的任意操作,同时保留其他区域的编辑友好性,展现了出色的局部编辑效果,优于现有的最先进方法。
Dec, 2023