扩散模型作为遮盖自编码器
本文介绍了一种更快的图像重建框架 LMD,通过潜在遮蔽扩散方法,将高分辨率图像投影和重建在潜在空间中,设计了渐进遮蔽扩散模型,通过三种不同的调度器逐渐提高遮蔽比例,以从简单到困难地重建潜在特征,从而加快模型训练速度,同时保持了原始准确性,并在下游任务中显著提高推理速度。
Dec, 2023
最近,去噪扩散概率模型展示了最先进的生成性能,并被用作强大的像素级表示学习器。本文将扩散模型内在的生成能力与表示学习能力之间的相互关系进行了分解。我们提出了掩蔽扩散模型 (MDM),这是一种可扩展的自监督表示学习器,用于将传统扩散中的加性高斯噪声替换为遮罩机制。我们所提出的方法在医学和自然图像语义分割任务中明显超越了先前的基准,并在少样本场景下展示了显著的进展。
Aug, 2023
我们提出了一种新颖的蒙版自编码器增强扩散模型 (MAEDiff),用于无监督异常检测脑部图像。MAEDiff 包括分层补丁分割,通过重叠上层补丁生成健康图像,并在次级补丁上采用基于蒙版自编码器的机制来增强未加入噪声区域的条件。对肿瘤和多发性硬化症病灶的数据进行了大量实验证明了我们方法的有效性。
Jan, 2024
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
Jun, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
提出了一种统一的自监督目标(Unified Masked Diffusion),通过在单一的自编码框架中结合基于补丁和噪声的破坏技术,使用扩散变换器(DiT)培训过程中引入额外的无噪声、高掩膜表示步骤,并在后续时间步骤中使用混合的掩膜和噪声图像,以实现在下游生成和表示学习任务中强大的性能。
Jun, 2024
掩蔽扩散模型是生成离散数据的自回归模型的替代选择,本论文提出了一个简单且通用的框架,解锁了掩蔽扩散模型的全部潜力,并在 OpenWebText 数据集上训练的模型在困惑度上超过了 GPT-2 模型,并在 5 个零 - shot 语言建模任务中展现出卓越性能,在像素级图像建模中也超过了之前的离散扩散模型。
Jun, 2024