TokenFlow:一致扩散特征用于一致视频编辑
通过引入时态依赖于现有的文本驱动扩散模型,使其能够生成一致的编辑对象外观,我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制,利用分层表示的概念将相邻帧的外观信息传播到下一帧,并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架,可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们方法展示了卓越的定性和定量结果。
Aug, 2023
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
提出了一种基于文本引导的视频风格化方法,通过同步多帧扩散框架来维持视觉细节和时间一致性,实现了视觉细节和时间一致性的生成高质量和多样性的结果。
Nov, 2023
本研究通过提出扩展图像扩散结构的扩散模型,使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频,并引入一种更好的有条件采样技术,得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。
Apr, 2022
通过引入一种新的自我关注计算方式(Consistent Self-Attention),以及引入一种语义空间时间运动预测模块(Semantic Motion Predictor),本文提出了一种名为 StoryDiffusion 的框架,能够生成包含丰富内容的一致图像或视频,用来描述基于文本的故事。
May, 2024
通过建立一个优雅而高效的 TCVE(Temporal-Consistent Video Editing)方法,本研究在大规模文本到图像(T2I)扩散模型的基础上,解决了文本引导视频编辑中的时间不连贯问题,取得了视频时序一致性和编辑能力方面的最新突破,并超越了该领域的现有基准。
Aug, 2023
借鉴一致性模型 (CM) 的自洽性特性,我们提出了一种高效的零样本视频编辑方法 FastVideoEdit,能够减少编辑时间并提高编辑速度,同时保持可比较的生成质量。
Mar, 2024
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适用性。
Mar, 2024