MagicProp: 基于扩散和运动感知的视频编辑方法
这篇论文研究了人物图像动画任务,提出了一种基于扩散的框架 MagicAnimate,旨在提高动画的时间一致性、保持参考图像的准确性和提升动画质量。通过引入视频扩散模型、新颖的外观编码器和简单的视频融合技术,该方法在两个基准测试中表现出卓越的性能,其中在具有挑战性的 TikTok 舞蹈数据集上,视频保真度比最强基线方法提高了 38% 以上。
Nov, 2023
最近文字导向的视频编辑引起了极大的兴趣,我们提出了 MagicStick 方法,通过利用提取的内部控制信号的转换,来对视频属性进行编辑,展示了对形状、大小、位置、动作等进行编辑的能力,我们的方法是第一个展示了从预训练文字到图像模型的视频属性编辑能力,与基于形状的文字导向编辑和手工制作的动态视频生成方法相比,我们展示了优于以往方法的时间一致性和编辑能力。
Dec, 2023
通过引入时态依赖于现有的文本驱动扩散模型,使其能够生成一致的编辑对象外观,我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制,利用分层表示的概念将相邻帧的外观信息传播到下一帧,并基于该机制构建了一个名为 StableVideo 的文本驱动视频编辑框架,可以实现一致感知的视频编辑。广泛的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们方法展示了卓越的定性和定量结果。
Aug, 2023
MagicEdit 是一种非常简单但非常有效的解决文本指导下的视频编辑任务的方法,通过在训练过程中明确分离内容、结构和动作信号的学习,可以实现高保真度和时间连贯性的视频到视频的转换。这与大多数现有方法试图在单个框架内同时建模外观和时间表示相矛盾,我们认为这会导致每帧质量下降。尽管简单,但我们展示了 MagicEdit 支持各种下游视频编辑任务,包括视频风格化、局部编辑、视频混合和视频外涂。
Aug, 2023
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
MotionEditor 是一种扩散模型,用于视频动作编辑,通过引入内容感知的运动适配器和两分支架构实现编辑过程中保留原始背景和主角外貌。
Nov, 2023
MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中,可以生成具有出色保真度和平滑度的美观、高分辨率视频,在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。
Jan, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
本文描述了一个用于高保真视频预测的计算模型,该模型从运动无关的生成中分离出运动特定的传播。我们引入了一个置信感知的变形算子,用于对未遮挡区域的像素预测输出进行门控,并由上下文编码器对受遮挡区域进行预测。与以往的作品不同,我们在变形步骤之后计算置信度,并使用单独的网络修补暴露区域。经验结果在合成和真实数据集上显示了我们的分离方法提供更好的遮挡映射,并与强基准相比产生更清晰,更逼真的预测。
Dec, 2018