一键式动作定制的文本到视频扩散模型
通过扩展现有的文本到视频生成模型,我们引入了一种方法来增加定制动作,以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入,我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。
Dec, 2023
通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数,作者提出了 MotionDirector 的方法,可以生成具有不同外观的自定义运动的视频,并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。
Oct, 2023
文本到视频扩散模型大幅推进了视频生成,但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战,主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题,我们提出了一种名为视频运动定制(VMC)框架的新一键调整方法,用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标,利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹,同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。
Dec, 2023
通过在冻结的文本到图像模型中插入一个新初始化的动态建模模块并对其进行视频剪辑训练,我们提出了一个实用的框架,一劳永逸地使大多数现有的个性化文本到图像模型都能够生成多样化和个性化的动态图像。
Jul, 2023
通过解耦视频为特定外观与相应动作的图像动画,我们提出了 AnimateZero 来揭示预训练的文本到视频扩散模型 AnimateDiff,并为其提供更精确的外观和动作控制能力。Anima teZero 无需进一步训练即可成功控制生成进程,对于给定图像,还可以实现多种新应用,包括交互式视频生成和真实图像动画。详细实验表明,该方法在 T2V 和相关应用中具有有效性。
Dec, 2023
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像 / 视频预训练任务的视频骨干网络(例如 Video Swin Transformer)相比,固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT 取得了非常有竞争力的结果。
Mar, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频,优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。
Dec, 2023
MotionCrafter 是一种新型一次性实例引导的动作定制方法,通过并行的时空架构注入参考动作到基础模型的时间部分,同时独立调整空间模块以进行角色或风格控制,以增强动作与外观的解耦,进而维持多样性,量化和定性实验证明了 MotionCrafter 在整合动态动作、保持一致性和提供广泛外观生成能力方面的成功。
Dec, 2023