文本到视频扩散模型中的定制动作
通过引入双路径的 LoRAs 架构和一种新颖的去除外观影响的时间损失函数,作者提出了 MotionDirector 的方法,可以生成具有不同外观的自定义运动的视频,并支持混合不同视频的外观和运动以及给单个图像添加自定义动作。
Oct, 2023
通过低秩适应的时空注意力层,该文献介绍了一种用于一次性运动定制的自定义视频模型,可以从单个参考视频中学习运动信息,以适应新的主题和场景,并可轻松扩展到多个下游任务。
Feb, 2024
文本到视频扩散模型大幅推进了视频生成,但个性化定制这些模型以生成具有定制运动的视频对其提出了重大挑战,主要困难包括准确复制目标视频的运动及创建多样化的视觉变化。为解决这些问题,我们提出了一种名为视频运动定制(VMC)框架的新一键调整方法,用于适应视频扩散模型内的时间注意力层。该方法引入了一种新颖的运动 “蒸馏” 目标,利用连续帧之间的残差向量作为运动参考。扩散过程保留低频运动轨迹,同时减少图像空间中高频运动无关噪声。我们在各种真实运动和场景下将该方法与最先进的视频生成模型进行了验证。我们的代码、数据和项目演示可以在此 https URL 找到。
Dec, 2023
本研究提出了一种新颖的方法,用于在视频生成中进行运动定制,解决了视频生成模型中对运动表示的彻底探索的普遍差距。我们介绍了 Motion Embeddings,这是从给定视频中衍生出的一组明确、时间连贯的一维嵌入,旨在与视频扩散模型的时间转换模块无缝集成,通过调节帧间的自注意力计算而不损失空间完整性。我们的方法提供了一种简洁高效的运动表示解决方案,并通过在嵌入空间中进行向量运算,实现了对运动特征的复杂操作定制。此外,我们还发现了视频生成模型中的时间差异,指的是不同运动模块处理帧间时间关系的变化。我们利用这种理解来优化我们的运动嵌入集成。我们的贡献包括为定制任务引入定制运动嵌入、揭示视频模型中的时间处理差异以及通过大量实验证明我们方法的实际优势和有效性。
Mar, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
通过在冻结的文本到图像模型中插入一个新初始化的动态建模模块并对其进行视频剪辑训练,我们提出了一个实用的框架,一劳永逸地使大多数现有的个性化文本到图像模型都能够生成多样化和个性化的动态图像。
Jul, 2023
通过使用扩散模型进行定制生成,在图像生成方面取得了可观的进展,但在具有挑战性的视频生成任务中仍然不令人满意,因为它需要对主题和动作的可控性。为此,我们提出了 DreamVideo,一种新颖的方法,可以从几个所需主题的静态图像和几个目标运动的视频来生成个性化视频。
Dec, 2023
我们引入 Direct-a-Video,一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动,就像导演一个视频一样。通过使用模型的先验知识,我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层,我们消除了显式运动注释的需求。我们的方法能够独立运作,并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。
Feb, 2024
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023