使用去噪扩散模型,我们提出了一种名为 PIDM 的人体图像扩散模型,解决了复杂的转换问题,并展示了在两个大型基准测试中的显着结果,以及如何在下游任务中使用生成的图像。
Nov, 2022
该研究论文提出了一种渐进条件扩散模型(PCDMs),通过三个阶段逐渐弥合目标姿势和源姿势下的人像之间的差距,并生成高质量、高保真的综合图像。
Oct, 2023
人物为中心的图像生成方法由于对常规预训练扩散进行微调导致训练不平衡,同时学习场景和人物生成会降低质量。本文提出了 Face-diffuser,一个协作生成管道,通过专门的预训练扩散模型和新颖的机制 (SNF) 消除训练不平衡并提高生成质量。
Nov, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
提出了一个创新性框架,通过集成语义匹配、外观转换和潜在偏差的各个方面,来达到细粒度细节的精确和自然转换,其中关键的要素是扩散模型在扩散过程的潜在空间内对预测的 x0 范围的战略使用,用于实现源图像和目标图像的语义对齐,便于改善特征获取的逐掩膜外观转换。通过广泛的实验验证了这种方法的有效性,并展示了其在广泛类别和领域中处理细粒度外观转换的能力。
提出了一种新的 Diffusion-ReID 范例,通过生成和过滤阶段来有效增强和生成不同的图像,首先创造了一个新的大规模人员重识别数据集 Diff-Person,接着构建了一个基于 Diff-Person 预训练的更强大的人员重识别模型,与其他预训练和自监督竞争者相比,展现了显著的优势。
Jun, 2024
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
我们提出了一种方法将复杂的多步扩散模型提炼为单步有条件生成对抗网络学生模型,从而大大加速推理过程,同时保持图像质量。我们的方法将扩散提炼解释为一种对应的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了进行高效的回归损失计算,我们提出了一种在扩散模型的潜空间中直接操作的感知损失 E-LatentLPIPS,利用增强的集合。此外,我们改进了扩散模型,构建了一个多尺度鉴别器,具有文本对齐损失,建立了一种有效的基于条件生成对抗网络的公式。即使考虑到数据集构建成本,E-LatentLPIPS 也比许多现有的提炼方法更高效。我们证明我们的一步生成器在零样本 COCO 基准测试上优于最先进的一步扩散提炼模型 - DMD、SDXL-Turbo 和 SDXL-Lightning。
May, 2024