零样学习的基于文本驱动运动转换的时空扩散特征

Nov, 2023

零样学习的基于文本驱动运动转换的时空扩散特征

Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer

Danah Yatim, Rafail Fridman, Omer Bar Tal, Yoni Kasten, Tali Dekel

TL;DR我们提出了一种新的文本驱动运动转换方法，通过合成一个符合目标对象和场景描述的输入文本的视频，同时保持输入视频的运动和场景布局。

Abstract

We present a new method for text-driven motion transfer - synthesizing a video that complies with an input text prompt describing the target objects and scene while maintaining an input video's motion and scene layout. Prior methods are confined to transferring motion across two subjec

text-driven motion transfer video synthesis motion characteristics diffusion model space-time feature loss

发现论文，激发创造

Motion-Zero：基于扩散的视频生成中的零表示移动物体控制框架

我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero，通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性，并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束，从而进一步确保移动物体的位置和空间一致性，并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型，无需任何训练过程，大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。

Jan, 2024

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023

Pix2Gif: 基于动态扩散的 GIF 生成

我们提出了 Pix2Gif，一种用于图像到 GIF（视频）生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题，我们以不同的方式解决了这个问题。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种提示的条件下空间转换源图像的特征。此外，我们引入了一个感知损失，确保变换后的特征图与目标图像保持相同的空间，以确保内容的一致性和连贯性。在模型训练准备阶段，我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据，该数据集提供了关于主题的时序变化的丰富信息。在预训练之后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示，还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。

Mar, 2024

DreamMotion: 零编剪式自相似分数提取的时空相似分数精炼

基于文本驱动的扩散视频编辑通过得分蒸馏采样来解决现实世界中的运动问题，同时匹配原始视频和编辑视频的时空自相似性，以改变外观同时准确保留原始结构和运动。

Mar, 2024

文本到视频扩散模型中的定制动作

通过扩展现有的文本到视频生成模型，我们引入了一种方法来增加定制动作，以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入，我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

通过图像扩散模型的生成能力，我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架，通过约束查询令牌的时间一致性，在潜在空间中进一步结合了变形操作以约束查询令牌，从而实现了生成视频的视觉时间相干性的提升。

Nov, 2023