Follow-Your-Click: 开放领域区域图像动画技术

Mar, 2024

Follow-Your-Click: 开放领域区域图像动画技术

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi...

TL;DR提出了一种基于用户点击和短动作提示的实用框架 Follow-Your-Click，用于实现图像动画生成，具备比现有方法更简单精确的用户控制和更好的生成性能。

Abstract

Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing

image-to-video controllability local animation follow-your-click motion prompt

发现论文，激发创造

点击移动：使用稀疏动作控制视频生成

该研究介绍了一个名为 Click to Move (C2M) 的新框架，可以通过简单的鼠标轨迹点控制合成视频的运动轨迹，并组合用户提供的运动信息和图像特征的 GCN 框架，从而在两个公开数据集上优于现有方法。

Aug, 2021

细粒度开放域图像动画与运动引导

本文介绍了一种利用视频扩散模型运动先验的开放领域图像动画方法，通过目标运动区域引导和运动强度引导，实现对可移动区域及其运动速度的精确控制，从而促进精细化和交互式动画生成过程。

Nov, 2023

Motion-I2V: 显式运动建模的一致且可控的图像到视频生成

Motion-I2V 是一个用于生成一致且可控的图像到视频的新型框架，通过显式的运动建模将图像到视频分解为两个阶段。

Jan, 2024

Pix2Gif: 基于动态扩散的 GIF 生成

我们提出了 Pix2Gif，一种用于图像到 GIF（视频）生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题，我们以不同的方式解决了这个问题。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种提示的条件下空间转换源图像的特征。此外，我们引入了一个感知损失，确保变换后的特征图与目标图像保持相同的空间，以确保内容的一致性和连贯性。在模型训练准备阶段，我们通过从 TGIF 视频标题数据集中提取一致的图像帧来精心筛选数据，该数据集提供了关于主题的时序变化的丰富信息。在预训练之后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性 - 它不仅捕捉了文本的语义提示，还捕捉了运动引导的空间提示。我们使用一个 16xV100 GPU 节点训练所有模型。代码、数据集和模型在此 https URL 中公开。

Mar, 2024

CoCoCo：改进文本引导的视频修复以提升一致性、可控性和兼容性

本文提出了一种新颖的文本导向的视频修复模型，实现了更好的一致性、可控性和兼容性。实验表明，该模型能够生成高质量的视频片段，并展示了更好的动作连贯性、文本可控性和模型兼容性。

Mar, 2024

Direct-a-Video: 用户定制化视频生成与用户指导的摄像机移动和物体运动

我们引入 Direct-a-Video，一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动，就像导演一个视频一样。通过使用模型的先验知识，我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层，我们消除了显式运动注释的需求。我们的方法能够独立运作，并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。

Feb, 2024

图像动画的一阶运动模型

本文描述了一种基于自监督学习的框架，可以将一个源图像中的对象根据驱动视频的运动进行动画处理，而不需要使用任何注释或有关特定对象的先前信息。使用一个经过训练的视频集合，我们的方法可以应用于此类对象的任何对象。

Feb, 2020

Follow-Your-Pose v2: 稳定姿态控制的多条件引导角色图像动画

提出了一个实用而稳健的框架 Follow-Your-Pose v2，它可以在互联网上易于获取的噪声数据集进行训练，并通过设计多条件引导器解决背景稳定性、多角色生成中的身体遮挡以及角色外貌的一致性等问题。通过对接近 4000 帧的新基准进行广泛实验，表明我们的方法在两个数据集和 7 个度量标准上比最先进的方法提高了 35% 以上。同时，定性评估表明我们的方法在生成复杂背景和多角色身体遮挡的场景中显著改善了生成视频的质量，表明了我们方法的优越性。

Jun, 2024

可控的图像描述生成视频技术

提出了一种名为 TI2V 的新的视频生成任务，即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器，其中包含一种创新的运动锚（MA）结构，以存储外观 - 运动对齐表示，通过三维轴向变压器与给定图像交互，支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。

Dec, 2021

理解物体动态：交互式图像到视频合成

本文介绍了一种使用局部操纵来学习自然外观的全局关节，训练只需要移动物体的视频，而不需要了解物理场景底层的操纵。通过学习物体动力学的生成模型，响应用户互动，并了解相互关联的不同物体部位，该方法预测了静态图像和像素局部操纵后物体弯曲的时间变化，并实现了变形的局部交互控制，可针对不同类型的物体进行转移。与现有的视频预测相比，我们的模型不合成任意逼真的视频，而是提供对变形的局部交互控制。通过对不同物体的广泛实验，证明了我们的方法相比于常见的视频预测框架的有效性。

Jun, 2021