Pix2Gif: 基于动态扩散的GIF生成

Mar, 2024

Pix2Gif: Motion-Guided Diffusion for GIF Generation

Hitesh Kandala, Jianfeng Gao, Jianwei Yang

TL;DR我们提出了Pix2Gif，一种用于图像到GIF（视频）生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题，我们以不同的方式解决了这个问题。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种提示的条件下空间转换源图像的特征。此外，我们引入了一个感知损失，确保变换后的特征图与目标图像保持相同的空间，以确保内容的一致性和连贯性。在模型训练准备阶段，我们通过从TGIF视频标题数据集中提取一致的图像帧来精心筛选数据，该数据集提供了关于主题的时序变化的丰富信息。在预训练之后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性-它不仅捕捉了文本的语义提示，还捕捉了运动引导的空间提示。我们使用一个16xV100 GPU节点训练所有模型。代码、数据集和模型在此https URL中公开。

Abstract

We present pix2gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magni