LMD:潜在蒙版扩散技术加速图像重建
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
最近,去噪扩散概率模型展示了最先进的生成性能,并被用作强大的像素级表示学习器。本文将扩散模型内在的生成能力与表示学习能力之间的相互关系进行了分解。我们提出了掩蔽扩散模型 (MDM),这是一种可扩展的自监督表示学习器,用于将传统扩散中的加性高斯噪声替换为遮罩机制。我们所提出的方法在医学和自然图像语义分割任务中明显超越了先前的基准,并在少样本场景下展示了显著的进展。
Aug, 2023
本文提出了一种基于现有预训练 DPM 模型的图像重建通用方法 PDAE,实现了比 Diff-AE 更好的训练效率和性能,并通过对分类器引导采样的机制填补信息缺失的空隙,使编码器对图像进行更好的重建,表现出了较高的有效性、效率和灵活性。
Dec, 2022
我们提出了一种新颖的蒙版自编码器增强扩散模型 (MAEDiff),用于无监督异常检测脑部图像。MAEDiff 包括分层补丁分割,通过重叠上层补丁生成健康图像,并在次级补丁上采用基于蒙版自编码器的机制来增强未加入噪声区域的条件。对肿瘤和多发性硬化症病灶的数据进行了大量实验证明了我们方法的有效性。
Jan, 2024
研究训练以潜在空间作为输入的 LDM 的方法,与传统的 Diffusion Models 相比,通过使用预训练的自动编码器将高维像素空间降为低维潜在空间,大大提高了训练效率,并使用隐私保护的方式对不同维度的注意力模型进行训练以减少可调参数,最终的实验结果表明该方法在生成高质量合成图像时表现突出。
May, 2023
本研究探索使用可扩散概率模型作为自编码器的解码器,让输入图像生成一个可以被意义化和解码的编码向量,该编码向量分为两部分:第一部分是含有语义的线性编码,而第二部分是建模随机变量的编码,提升了图像生成的质量并且在其他应用中可以用来做属性调整和去噪等任务。
Nov, 2021
本篇研究介绍 Diff-AE 与 GAE 两种基于 Diffusion probabilistic models 的编码器模型,实现由多个属性进行图像编辑和生成,大大降低了计算需求,并达到了相当不错的效果,对潜在特征得到了更好的分离。
Jul, 2023
利用图像和潜在空间之间的重建误差,AEROBLADE 方法可以有效检测使用低维扩散模型生成的图像并允许图像的定性分析。
Jan, 2024