DragAnything：使用实体表示的任意物体运动控制

Mar, 2024

DragAnything：使用实体表示的任意物体运动控制

DragAnything: Motion Control for Anything using Entity Representation

Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He...

TL;DRDragAnything 利用实体表示来实现对可控视频生成中的任何对象的运动控制。与现有的运动控制方法相比，DragAnything 具有几个优势：轨迹为基础的方法更易于用户交互，不需要获取其他指导信号（例如，遮罩、深度图）的工作字眼；用户只需在交互过程中绘制一条线（轨迹）。其次，我们的实体表示作为一个开放域的嵌入，能够表示任何对象，实现对各种实体（包括背景）的运动控制。最后，我们的实体表示允许同时对多个对象进行不同的运动控制。大量实验证明，DragAnything 在 FVD、FID 和用户研究方面实现了最先进的性能，尤其在对象运动控制方面，我们的方法在人类投票中比以前的方法（例如 DragNUWA）提高了 26%。

Abstract

We introduce draganything, which utilizes a entity representation to achieve motion control for any object in controllable video generatio

draganything motion control entity representation trajectory-based object motion control

发现论文，激发创造

DragAPart: 学习用于关节物体的部分级动作先验

DragAPart 是一种基于图像和一组拖动操作输入的方法，可以生成一个物体在新状态下的新图像，与拖动操作相匹配。与以前侧重于重新定位物体的工作不同，DragAPart 预测部分级别的互动，例如打开和关闭抽屉。通过将预训练的图像生成器用新的合成数据集 Drag-a-Move 和新的拖动编码进行微调，并结合数据集随机化，该模型在实际图像和不同类别上具有很好的推广能力。与之前的运动控制生成器相比，我们展示了更好的部分级别的运动理解能力。

Mar, 2024

DragVideo: 交互式拖拽式视频编辑

通过采用与 DragGAN 相似的拖拽式用户交互来编辑视频内容并保持时间一致性的 DragVideo，通过优化视频 U-Net 生成的扩散视频潜变量来实现所需的控制，展示了拖拽式视频编辑的可适用性和通用性。

Dec, 2023

Drag-A-Video: 面向基于点的交互的非刚性视频编辑

我们提出了一种基于扩散的新型交互式基于点的视频编辑方法，名为 Drag-A-Video，该方法允许用户在视频的第一帧上与其他帧一致变形地精确拖动实例的任意点，以精确修改视频内容。

Dec, 2023

DragNUWA: 文本、图像和轨迹融合在视频生成中的细粒度控制

DragNUWA 是一个开放域扩散式视频生成模型，通过同时引入文本、图像和轨迹信息，提供语义、空间和时间层面的精细控制视频内容。该模型通过轨迹采样器、多尺度融合和自适应训练策略解决现有研究中有限的开放域轨迹控制问题，实验证明 DragNUWA 在视频生成中具有卓越的精细控制性能。

Aug, 2023

Dragtraffic: 一个面向非专家的交互式和基于点的可控交通场景生成框架

通过基于条件扩散的广义、基于点的可控交通场景生成框架 Dragtraffic，使用回归模型提供初始解决方案，并通过条件扩散模型的细化过程来确保多样性，引入用户自定义上下文以确保高可控性，实验证明 Dragtraffic 在真实驾驶数据集上的真实性、多样性和自由度方面优于现有方法。

Apr, 2024

DragPoser: 通过潜空间优化从变量稀疏追踪信号中重建运动

通过 DragPoser，我们引入了一种新颖基于深度学习的动作重建系统，能够精确表示难以预测和动态的即时约束，达到实时的高端效应器位置准确性，并展示出对即时约束修改的强大适应性和对各种输入配置和变更的异常适应能力。

Apr, 2024

FastDrag: 一步操作任意物体

通过引入一种新的一步式拉动图像编辑方法 FastDrag，利用生成模型进行基于拖拽的图像编辑控制，通过潜在语义优化以及自我注意模块，加速编辑过程，提高编辑效果。

May, 2024

GoodDrag：面向扩散模型的拖拽编辑良好实践

介绍了 GoodDrag，一种改善拖拽编辑稳定性和图像质量的新方法。通过引入 AlDD 框架进行扩散过程中的拖拽和去噪操作交替，有效提高结果的保真度。提出了信息保持的运动监督操作，以保持精确操作和减少伪影。除此之外，通过引入 Drag100 数据集和开发专用的质量评估指标，Dragging Accuracy Index 和 Gemini Score 来贡献拖拽编辑的基准测试。广泛的实验证明，所提出的 GoodDrag 在定性和定量上与最先进的方法相比具有优势。

Apr, 2024

基于物理控制的通用人形动作表示

我们提出了一种通用的运动表示方法，该方法涵盖了针对基于物理的人形控制的全面的运动技能范围。

Oct, 2023

拖动视图：通过无表征图像生成泛化的新视图

通过 DragView 框架，可以生成具有新视角的场景，无需 2D 先验模型或摄像机姿态估计，实现了与其他无姿态要求的场景表示网络相比优秀的视图合成质量，并能够生成具有灵活摄像机轨迹的逼真新视角。

Oct, 2023