魔我:身份特定视频定制扩散
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像 / 视频预训练任务的视频骨干网络(例如 Video Swin Transformer)相比,固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT 取得了非常有竞争力的结果。
Mar, 2024
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
在本工作中,我们提出了一种名为 CustomVideo 的新型框架,该框架可以生成多个主题引导下的保持身份特征的视频。我们通过将多个主题组合于单个图像中来促进多主题同时出现;在基本的文本到视频扩散模型上,我们设计了一种简单而有效的注意力控制策略,以在扩散模型的潜在空间中解开不同的主题;此外,为了帮助模型专注于特定的对象区域,我们从给定的参考图像中分割对象,并为注意力学习提供相应的对象蒙版。我们还收集了一个多主题文本到视频生成数据集作为全面的基准,其中包含 69 个个体主题和 57 个有意义的主题对。广泛的定性、定量和用户研究结果证明了我们方法的优越性,与之前的最先进方法相比。
Jan, 2024
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024
通过低秩适应的时空注意力层,该文献介绍了一种用于一次性运动定制的自定义视频模型,可以从单个参考视频中学习运动信息,以适应新的主题和场景,并可轻松扩展到多个下游任务。
Feb, 2024
通过使用扩散模型进行定制生成,在图像生成方面取得了可观的进展,但在具有挑战性的视频生成任务中仍然不令人满意,因为它需要对主题和动作的可控性。为此,我们提出了 DreamVideo,一种新颖的方法,可以从几个所需主题的静态图像和几个目标运动的视频来生成个性化视频。
Dec, 2023
视频生成的研究最近取得了巨大的进展,使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标,并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而,从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散(CVD)作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块,通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明,在针对视频生成的最先进相机控制模块的基础上训练,CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。
May, 2024
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
文本到视频扩散模型大幅推进了视频生成,但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战,主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题,我们提出了一种名为视频运动定制(VMC)框架的新一键调整方法,用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标,利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹,同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。
Dec, 2023