利用渐进条件扩散模型推动姿势引导的图像合成
使用去噪扩散模型,我们提出了一种名为PIDM的人体图像扩散模型,解决了复杂的转换问题,并展示了在两个大型基准测试中的显着结果,以及如何在下游任务中使用生成的图像。
Nov, 2022
本研究提出了一种基于循环姿态对齐和梯度引导的方法,可以生成具有真实外观和无瑕疵姿态转移的人物图像。经过广泛的实验证明,该方法能够在复杂场景下生成具有真实感的姿态转移,并且通过人工评测证明了其有效性。
Oct, 2023
我们提出了DiffPortrait3D,这是一种条件扩散模型,能够从一个野外肖像合成一致的3D真实场景。我们利用大规模图像数据预训练的2D扩散模型作为渲染骨干,通过外貌和相机姿势的解耦集中控制对图像进行去噪。我们进一步引入可训练的跨视角注意力模块以增强视角一致性,并在推断过程中实施一种新颖的3D感知噪声生成过程。在野外和多视角基准测试上,我们展示了优于现有方法的结果。
Dec, 2023
PADS是一个基于扩散的框架,通过一个统一的流程解决了3D人体姿势分析中的各种挑战,其核心是学习使用扩散合成过程的与任务无关的姿势先验,以有效捕捉人体姿势数据中的运动约束,并将多个姿势分析任务(如估计、完整性、去噪等)统一为逆问题的实例。学到的姿势先验被视为对任务特定约束的正则化约束,通过一系列条件去噪步骤引导优化过程。PADS是第一个基于扩散的框架,用于在逆问题框架内解决一般的3D人体姿势分析,其性能已经在不同的基准测试上得到验证,表明了该流程的适应性和鲁棒性。
Jan, 2024
X-MDPT是一种新颖的扩散模型,用于姿势引导的人体图像生成,采用了基于掩模的扩散变换器,通过对潜在补丁的操作,与现有作品中常用的Unet结构有所不同。该模型包括三个关键模块:去噪扩散变换器,将条件整合成单一向量进行扩散过程的聚合网络,以及通过参考图像中的语义信息增强表示学习的掩模交叉预测模块。X-MDPT在更大模型下展示了可扩展性,在DeepFashion数据集上优于现有方法,并在训练参数、训练时间和推理速度方面表现出高效性。我们的33MB紧凑模型在FID为7.42时超过了使用11倍少参数的先前Unet潜在扩散方法(FID 8.07)。我们的最佳模型相比像素级扩散使用了2/3的参数,并实现了5.43倍的更快推理。
Feb, 2024
我们引入了一种新颖的姿势条件的人体图像生成方法,将生成过程分为两个阶段:手的生成和在手周围绘制身体。我们将手生成器训练在多任务设置中,以产生手图像及其相应的分割掩模,并将训练后的模型用于生成的第一阶段。然后,在第二阶段中使用改进的ControlNet模型来绘制生成的手周围的身体,产生最终的结果。我们引入了一种新颖的混合技术,在第二阶段中保留手部细节,以一种连贯的方式结合两个阶段的结果。实验评估证明了我们提出的方法在姿势准确性和图像质量上优于现有技术,在HaGRID数据集上得到验证。我们的方法不仅提高了生成手部的质量,还提供了对手势的改进控制,推进了姿势条件的人体图像生成的能力。
Mar, 2024
本研究针对条件图像合成领域中的复杂性及多样性挑战,系统性地回顾了基于扩散的生成建模方法。通过对现有研究的分类,本论文揭示了多种条件机制在模型训练和采样过程中的应用,指出了关键问题与未来研究方向,助于研究者更好地理解和应对快速发展的条件图像合成技术。
Sep, 2024
本研究针对条件图像合成的复杂性与快速发展的挑战,系统性地分类现有文献,探讨条件如何融入扩散模型的去噪网络和采样过程。研究的关键在于分析各种条件方法在训练及专业化阶段的原理和优缺点,并总结六种主流条件机制。该综述不仅为研究者提供了深入的理解,也指出了未来亟待解决的关键问题和潜在的解决方案。
Sep, 2024
本研究解决了在3D人体姿态估计中使用SMPL模型时,确保配置有效性的挑战。这篇论文提出了MOPED,一个首创的多模态条件扩散模型,作为SMPL姿态参数的先验,能够根据图像和文本等多模态输入进行姿态生成,显著提高了姿态估计、去噪和完成等任务的表现。
Oct, 2024