神经视频场编辑

Dec, 2023

Neural Video Fields Editing

Shuzhou Yang, Chong Mou, Jiwen Yu, Yuhan Wang, Xiandong Meng...

TL;DR本文介绍了一种名为 NVEdit 的新型文本驱动视频编辑框架，通过构建神经视频场、采用渐进优化策略以及替换可适应的神经视频场和文本到图像模型，解决了实际场景中长视频编辑中的图形内存需求快速增长和编辑的帧间不一致性等挑战，实现了对具有显著帧间一致性的长视频的成功编辑。

Abstract

diffusion models have revolutionized text-driven video editing. However, applying these methods to real-world editing encounters two significant challenges: (1) the rapid increase in graphics memory demand as the

diffusion models text-driven video editing nvedit neural video field inter-frame consistency

发现论文，激发创造

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

基于扩散的视频编辑的中立编辑框架

本文介绍了一种名为 Neutral Editing（NeuEdit）框架的概念，通过改变视频中人物 / 物体的动作，实现了复杂的非刚性编辑。该框架通过利用输入的视频和文本，没有其他辅助工具（如视觉蒙版、视频字幕），以模型无关的方式增强了基于扩散编辑系统的调整编辑过程。对大量视频进行了广泛实验，证明了 NeuEdit 框架的适应性和有效性。

Dec, 2023

DynVideo-E: 大规模运动和视角变化人为中心视频编辑中的动态 NeRF 应用

引入动态神经辐射场（NeRF）作为人物中心视频表示，将视频编辑问题简化为三维空间编辑任务，通过变形场在整个视频上进行编辑。

Oct, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

DreamEditor: 使用神经场进行文本驱动的 3D 场景编辑

本文提出了 DreamEditor，一种使用文本提示对神经场进行编辑的新框架，用于场景重建，可以实现精确编辑神经场保持平滑的几何纹理，并且在定量和定性评估中明显超过以前的工作。

Jun, 2023

无需重新训练的基于文本的 3D 场景编辑

我们引入了一种名为 DN2N 的文本驱动编辑方法，使用现成的基于文本的图像编辑模型修改 3D 场景图片，并提出了一种去除噪声扰动的训练数据生成方法，以及交叉视图正则化项来帮助泛化 NeRF 模型，实现了友好、直观和实用的用户编辑体验，并实现了多种编辑类型的效果。

Sep, 2023

GenVideo: 利用 T2I 扩散模型进行单次目标图像和形状感知视频编辑

提出了一种名为 “GenVideo” 的视频编辑方法，它利用目标图像感知的 T2I 模型进行编辑，能够处理具有不同形状的目标对象的编辑，并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明，GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。

Apr, 2024

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024