Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑
通过建立一个优雅而高效的 TCVE(Temporal-Consistent Video Editing)方法,本研究在大规模文本到图像(T2I)扩散模型的基础上,解决了文本引导视频编辑中的时间不连贯问题,取得了视频时序一致性和编辑能力方面的最新突破,并超越了该领域的现有基准。
Aug, 2023
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅需大约一分钟即可处理一个视频。
Jun, 2023
提出了一种新颖的无需重新训练模型的 3D 场景编辑技术 Free-Editor,采用单视图编辑方案以避免多视角风格不一致问题,并使用 Edit Transformer 实现视图内一致性和视图间风格迁移,实现了快速且多样化的编辑能力。
Dec, 2023
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频,优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。
Dec, 2023
提出了一种名为 “GenVideo” 的视频编辑方法,它利用目标图像感知的 T2I 模型进行编辑,能够处理具有不同形状的目标对象的编辑,并通过新颖的目标和形状感知 InvEdit 蒙版保持编辑的时间一致性。实验分析表明,GenVideo 能够有效处理以往方法无法处理的具有不同形状的对象的编辑。
Apr, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
通过对噪音模式和扩散时间步进行优化,本文提出了基于 SD 的 TiNO-Edit 方法,其能够生成与原始图像更加吻合且符合预期结果的编辑结果,同时在 SD 的潜在域中提出了一组新的损失函数来加速优化过程。
Apr, 2024
本文提出了 EI ^ 2 模型,主要解决 Text-to-Image 的视频编辑中存在的文本指示不一致和时间序列问题,通过引入 Shift-restricted Temporal Attention Module (STAM) 和 Fine-coarse Frame Attention Module (FFAM) 解决协变量漂移问题以及合理利用局部和全局信息,提高编辑的一致性。
May, 2023