掩码扩散模型学习速度快
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
Jun, 2023
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
本文中,我们提出了使用最近发展的去噪扩散生成模型建模的掩模先验来提高现有判别方法的语义分割质量。我们发现简单的集成扩散模型到语义分割中是不够的,并且一次差的扩散过程设计可能导致分割性能下降。我们通过多个实验表明,我们的方法在 ADE20K 和 Cityscapes 数据集上达到了较高的定量和定性性能。
Jun, 2023
最近,去噪扩散概率模型展示了最先进的生成性能,并被用作强大的像素级表示学习器。本文将扩散模型内在的生成能力与表示学习能力之间的相互关系进行了分解。我们提出了掩蔽扩散模型 (MDM),这是一种可扩展的自监督表示学习器,用于将传统扩散中的加性高斯噪声替换为遮罩机制。我们所提出的方法在医学和自然图像语义分割任务中明显超越了先前的基准,并在少样本场景下展示了显著的进展。
Aug, 2023
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并在下游任务中显著提高推理速度。
Dec, 2023
使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割,在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。
Mar, 2024
本研究提出了一种名为 mDPPM 的方法,通过引入基于掩码的正则化来重新定义扩散模型的生成任务,以将无标签数据用于自我监督学习,从而从健康脑的样本级标签生成所需的表示,确保结果是解剖一致的。 该研究在包含肿瘤和多发性硬化症病变的数据集上评估了这种方法,并展示了我们的无监督方法相对于现有完全 / 弱监督基线的优越性能。
May, 2023
本文研究了扰动扩散概率模型在语义分割任务中的应用,特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层,我们发现它们可以有效地捕捉输入图像的语义信息,并成为像素级别的分割表示。基于这些观察,我们提出了一种简单的分割方法,能在仅有少量训练图像的情况下显著提高性能。
Dec, 2021
本研究提出了一种基于扩散的伪装目标检测框架(diffCOD),该框架将伪装目标分割任务视为从噪声掩码到目标掩码的去噪扩散过程,并采用模型学习来逆转这一噪声处理过程。通过将输入图像先验编码和集成到去噪扩散模型中来加强去噪学习,同时使用注入注意力模块(IAM)通过交叉注意机制将从图像中提取的条件语义特征与扩散噪声嵌入相互作用以增强去噪学习。实验结果表明,在四个广泛使用的伪装目标检测基准数据集上,该方法相较于其他 11 种最先进的方法,尤其在伪装目标的纹理细分割上取得了有利的性能。
Aug, 2023
调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述,包括理论和实践方面,并从多个角度对这些作品进行了彻底分析和分类,介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外,对图像修复和扩展进行了特别关注,并探讨了早期的传统上下文驱动方法和当前的多模态条件方法,全面分析了它们的方法论。最后,讨论当前的限制并展望未来的研究方向。
Feb, 2024