基于拖曳引导的车辆图像生成扩散模型
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
通过使用导向梯度的扩散模型生成图像,我们提出了一种零样本技术 —— 运动导向,它允许用户指定复杂的运动场并精确编辑图像中对象的布局、位置、姿态和形状。通过同时从扩散模型中采样和引导样本以实现低导向损失,我们可以获得经过运动编辑的高质量图像。
Jan, 2024
提出一种新的物理引导的运动扩散模型 (PhysDiff),该模型将物理约束条件融入到扩散过程中,并利用物理仿真中的运动模拟来将降噪后的运动投影为物理合理运动,以此指导降噪扩散过程,并在大规模人类运动数据集上进行实验,取得了最先进的运动质量和显着的物理合理性改进(对于所有数据集 > 78%)。
Dec, 2022
本篇研究介绍了 self-guidance 这一新方法,通过指导扩散模型的内部表示,提供了对生成图像更强的控制力,可以从这些表示中提取对象的形状、位置和外观等属性,并使用它们来控制生成的采样,这种方法类似于分类器引导,但是不需要额外的模型或训练,作者演示了如何使用这种方法进行复杂的图像操作,如修改对象的位置或大小,合并图像中对象的外观和布局等,并证明了 self-guidance 还可以用于编辑真实图像。
Jun, 2023
本文介绍了一种基于扩散模型的交互式基于点的图像编辑框架 DragDiffusion,并通过优化扩散模型潜在空间实现精确的空间控制。
Jun, 2023
通过使用预先训练的逆模型设计的损失,利用扩散模型的生成控制能力,我们引入了 Steered Diffusion,这是一个通用的框架,用于实现基于扩散模型的逼真零样本条件图像生成,以在推理时引导扩散模型的图像生成过程。我们的实验表明,与最先进的基于扩散的即插即用模型相比,我们的框架在多种任务上如修补、着色、文本引导的语义编辑和图像超分辨率方面有明显的定性和定量改进,同时增加了可忽略的额外计算成本。
Sep, 2023
本文提出了一种可行的指导框架,称为实用插播(PPAP),该框架利用参数高效的微调和不需要标记的数据传输来利用多个专家,每个专家都专门针对特定噪音范围并指导扩散的反转过程。通过图像类别有条件的生成实验,证明了该方法可以成功地引导扩散,且小可训练参数和没有标记的数据。最后,通过我们的框架,我们展示了图像分类器,深度估计器和语义分割模型可以以插播的方式指导公开可用的 GLIDE。
Dec, 2022
通过使用具有防碰撞功能的扩散核进行训练,我们提出了一种在推理时间仅使用单个视觉输入生成可达目标并规划避开障碍物的运动的方法,该方法有效解决了推理时间障碍物检测和额外设备需求的挑战,在多模态环境中具有鲁棒性,能够导航到目标并避免由障碍物阻挡的不可达目标,同时确保避免碰撞。
Oct, 2023
本文介绍了一种基于 DragonDiffusion 的图像编辑方法,通过构建一个分类器指导策略,将编辑信号转化为梯度并利用特征对应损失修改分布式模型的中间表示,在保持原图像和编辑结果的一致性的同时,实现各种编辑模式,诸如物体移动、物体缩放、物体外观替换和内容拖动。
Jul, 2023
介绍了 GoodDrag,一种改善拖拽编辑稳定性和图像质量的新方法。通过引入 AlDD 框架进行扩散过程中的拖拽和去噪操作交替,有效提高结果的保真度。提出了信息保持的运动监督操作,以保持精确操作和减少伪影。除此之外,通过引入 Drag100 数据集和开发专用的质量评估指标,Dragging Accuracy Index 和 Gemini Score 来贡献拖拽编辑的基准测试。广泛的实验证明,所提出的 GoodDrag 在定性和定量上与最先进的方法相比具有优势。
Apr, 2024