FastDrag: 一步操作任意物体
InstaDrag 是一个快速方法,通过将拖拽编辑重新定义为条件生成任务,以及在训练时使用视频帧作为数据源,可以在大约 1 秒内实现高质量的拖拽式图像编辑。
May, 2024
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
通过利用旋转图像的特征映射,精确跟踪控制点并保证高图像保真度,我们提出了一种名为 RotationDrag 的新方法,该方法在用户意图的平面旋转图像内容方面改进了基于点的图像编辑性能,并构建了一个针对平面旋转场景的基准测试 RotateBench 来评估点基图像编辑方法的性能。
Jan, 2024
设计了一个稳定和精确的基于拖动的编辑框架 StableDrag,通过一种准确的点追踪方法和基于置信度的潜在增强策略,解决了点追踪不准确和运动监督不完整的问题,从而提高长距离操作的稳定性和操纵步骤中的优化潜在质量。通过在 DragBench 上进行广泛的定性实验和定量评估,实例化了 StableDrag-GAN 和 StableDrag-Diff 两种稳定的图像编辑模型。
Mar, 2024
本文介绍了一种基于 DragonDiffusion 的图像编辑方法,通过构建一个分类器指导策略,将编辑信号转化为梯度并利用特征对应损失修改分布式模型的中间表示,在保持原图像和编辑结果的一致性的同时,实现各种编辑模式,诸如物体移动、物体缩放、物体外观替换和内容拖动。
Jul, 2023
DragNoise 利用 U-Net 的预测噪音输出作为语义编辑器,实现了稳定和高效的扩散语义编辑,并通过比较实验证明,与 DragDiffusion 相比,DragNoise 具有更好的控制和语义保留,优化时间减少了 50% 以上。
Apr, 2024
介绍了 GoodDrag,一种改善拖拽编辑稳定性和图像质量的新方法。通过引入 AlDD 框架进行扩散过程中的拖拽和去噪操作交替,有效提高结果的保真度。提出了信息保持的运动监督操作,以保持精确操作和减少伪影。除此之外,通过引入 Drag100 数据集和开发专用的质量评估指标,Dragging Accuracy Index 和 Gemini Score 来贡献拖拽编辑的基准测试。广泛的实验证明,所提出的 GoodDrag 在定性和定量上与最先进的方法相比具有优势。
Apr, 2024
LucidDrag 采用意图推论和协同引导采样机制,将焦点从 “如何拖动” 转移为 “先做什么再怎么做”,通过语义引导和质量引导解决拖动式编辑的困难问题,并且在定性和定量比较中表现出优越性。
Jun, 2024
通过采用与 DragGAN 相似的拖拽式用户交互来编辑视频内容并保持时间一致性的 DragVideo,通过优化视频 U-Net 生成的扩散视频潜变量来实现所需的控制,展示了拖拽式视频编辑的可适用性和通用性。
Dec, 2023
通过使用扩展人工智能技术创建三维纹理网格近期引起了重要关注。我们提出了一种名为 DragTex 的生成点型三维网格纹理编辑方法,该方法利用扩散模型在不同视角之间变形剪影附近的区域中混合局部不一致的纹理,实现了局部一致的纹理编辑。此外,我们通过微调解码器来减少非拖动区域的重构错误,从而减轻了总体的错误积累。此外,我们使用多视图图像训练 LoRA,而不是对每个视图进行单独训练,从而显著缩短了训练时间。实验结果表明,我们的方法可有效地在三维网格上拖动纹理,并生成与拖动交互的预期意图相一致的合理纹理。
Mar, 2024