零样学习的基于文本驱动运动转换的时空扩散特征
我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero,通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性,并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束,从而进一步确保移动物体的位置和空间一致性,并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型,无需任何训练过程,大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。
Jan, 2024
本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用,在形状、纹理和颜色上强制执行分层的跨帧约束,实现低成本下的全局样式和局部纹理的时空一致性。
Jun, 2023
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频,优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。
Dec, 2023
基于文本驱动的视频编辑,我们介绍了一个利用文本到图像扩散模型的框架,生成高质量视频的同时保留输入视频的空间布局和运动,实现编辑视频的一致性。
Jul, 2023
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。
Mar, 2024
基于文本驱动的扩散视频编辑通过得分蒸馏采样来解决现实世界中的运动问题,同时匹配原始视频和编辑视频的时空自相似性,以改变外观同时准确保留原始结构和运动。
Mar, 2024
通过扩展现有的文本到视频生成模型,我们引入了一种方法来增加定制动作,以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入,我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。
Dec, 2023
通过引入一种新的自我关注计算方式(Consistent Self-Attention),以及引入一种语义空间时间运动预测模块(Semantic Motion Predictor),本文提出了一种名为 StoryDiffusion 的框架,能够生成包含丰富内容的一致图像或视频,用来描述基于文本的故事。
May, 2024
通过图像扩散模型的生成能力,我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架,通过约束查询令牌的时间一致性,在潜在空间中进一步结合了变形操作以约束查询令牌,从而实现了生成视频的视觉时间相干性的提升。
Nov, 2023