通过使用集群分配,我们对图像级别调制的扩散模型进行了全面的实验研究,并阐明了图像集群的个别组件对三个数据集上图像合成的影响。结合图像集群和扩散模型的最新进展,我们表明,给定图像合成的最优集群粒度(可视化组),集群调制可以实现最先进的 FID(即在 CIFAR10 和 CIFAR100 上分别为 1.67 和 2.17),同时具有强大的训练样本效率。最后,我们提出了一种通过仅基于特征的聚类来导出上部集群界限的新方法,从而减少视觉组的搜索空间。与现有方法不同,我们发现聚类与集群条件图像生成之间没有显著的联系。代码和集群分配将会发布。
Mar, 2024
本文提出了一种利用交叉注意力的多条件扩散模型生成高质量可控人脸图像的方法,并探究了感知加权损失在潜空间中的效果。实验结果表明,该方法可以在保证实现精细控制的同时生成逼真多样的样本。
Jun, 2023
优化了扩散模型中文本和图像的一致性,通过引入自适应掩码调整文本令牌对图像特征的贡献,提高了合成图像的质量。
Sep, 2023
通过给扩散模型输入精制的噪声来提高其控制性,从而可以产生基于语义属性的图像。
May, 2022
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果,并在定量指标和质量评估方面表现出色。此外,我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。
Dec, 2023
调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述,包括理论和实践方面,并从多个角度对这些作品进行了彻底分析和分类,介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外,对图像修复和扩展进行了特别关注,并探讨了早期的传统上下文驱动方法和当前的多模态条件方法,全面分析了它们的方法论。最后,讨论当前的限制并展望未来的研究方向。
Feb, 2024
提出了 DiffMatch 框架,使用基于扩散的条件去噪模型显式地建模了两个术语:数据项和先验项,以解决匹配模糊性问题,实验证明其优于现有技术。
May, 2023
我们介绍了一种名为可控条件扩散的新型采样框架,它将去噪扩散模型与可用的测量数据相结合,实现了对多样的成像模态下的离群任务的显著改进,推动了去噪扩散模型在实际应用中的鲁棒部署。
Aug, 2023
使用 DiffusionRig 和基于单张面部图片的 3D 面部模型,本文通过两阶段 - 先 - generic 后 - specific - 的方法来学习人脸先验,从而在保留身份信息的前提下,编辑人物的表情,头发光照等,展现出更好的 photorealism 表现且超越了现有方法。
Apr, 2023
基于扩散的图像修复模型实现在线购物时的虚拟可视化,包括细节处理和语义操作。
Jan, 2024