扩散模型作为遮盖自编码器

Apr, 2023

Diffusion Models as Masked Autoencoders

Chen Wei, Karttikeya Mangalam, Po-Yao Huang, Yanghao Li, Haoqi Fan...

TL;DR本文提出一种使用掩码自编码器作为扩散模型的条件，进而重复生成预训练视觉表示的方法，具备强大的下游识别任务的初始化能力，高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时，本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。

Abstract

There has been a longstanding belief that generation can facilitate a true understanding of visual data. In line with this, we revisit generatively pre-training visual representations in light of recent interest in denoising →

generative pre-training visual representations diffusion models masked autoencoders image inpainting

发现论文，激发创造

掩码扩散模型学习速度快

我们提出了一种基于先验的去噪训练框架，并将先训练和微调范式纳入扩散模型的训练过程，从而显着提高了训练效率和生成的图像质量。

Jun, 2023

LMD：潜在蒙版扩散技术加速图像重建

本文介绍了一种更快的图像重建框架 LMD，通过潜在遮蔽扩散方法，将高分辨率图像投影和重建在潜在空间中，设计了渐进遮蔽扩散模型，通过三种不同的调度器逐渐提高遮蔽比例，以从简单到困难地重建潜在特征，从而加快模型训练速度，同时保持了原始准确性，并在下游任务中显著提高推理速度。

Dec, 2023

遮蔽扩散作为自监督表示学习者

最近，去噪扩散概率模型展示了最先进的生成性能，并被用作强大的像素级表示学习器。本文将扩散模型内在的生成能力与表示学习能力之间的相互关系进行了分解。我们提出了掩蔽扩散模型 (MDM)，这是一种可扩展的自监督表示学习器，用于将传统扩散中的加性高斯噪声替换为遮罩机制。我们所提出的方法在医学和自然图像语义分割任务中明显超越了先前的基准，并在少样本场景下展示了显著的进展。

Aug, 2023

MAEDiff: 基于掩码自编码器增强扩散模型的无监督脑部图像异常检测

我们提出了一种新颖的蒙版自编码器增强扩散模型 (MAEDiff)，用于无监督异常检测脑部图像。MAEDiff 包括分层补丁分割，通过重叠上层补丁生成健康图像，并在次级补丁上采用基于蒙版自编码器的机制来增强未加入噪声区域的条件。对肿瘤和多发性硬化症病灶的数据进行了大量实验证明了我们方法的有效性。

Jan, 2024

掩蔽变换器应用于扩散模型快速训练

本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法，实现了在不牺牲生成性能的情况下，仅使用 31％的训练时间达到与最先进的扩散变压器模型相同性能的效果。

Jun, 2023

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

扩散模型在图像分类上胜过 GAN

本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型，并发现这种模型在图像分类任务中具有优异的性能，特别是在经过精心特征选择和池化的情况下，扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法

Jul, 2023

统一自编码与屏蔽扩散

提出了一种统一的自监督目标（Unified Masked Diffusion），通过在单一的自编码框架中结合基于补丁和噪声的破坏技术，使用扩散变换器（DiT）培训过程中引入额外的无噪声、高掩膜表示步骤，并在后续时间步骤中使用混合的掩膜和噪声图像，以实现在下游生成和表示学习任务中强大的性能。

Jun, 2024

简单有效的遮掩扩散语言模型

简化的掩码离散扩散模型在语言建模方面的性能优于以往认为的水平，可以用于训练只有编码器的高效采样语言模型，并在语言建模基准测试中取得了最新的最佳结果。

Jun, 2024

离散数据的简化和推广掩码扩散

掩蔽扩散模型是生成离散数据的自回归模型的替代选择，本论文提出了一个简单且通用的框架，解锁了掩蔽扩散模型的全部潜力，并在 OpenWebText 数据集上训练的模型在困惑度上超过了 GPT-2 模型，并在 5 个零 - shot 语言建模任务中展现出卓越性能，在像素级图像建模中也超过了之前的离散扩散模型。

Jun, 2024