基于结构扩散和白盒变换器的遮蔽完成

ICLRApr, 2024

基于结构扩散和白盒变换器的遮蔽完成

Masked Completion via Structured Diffusion with White-Box Transformers

Druv Pai, Ziyang Wu, Sam Buchanan, Yaodong Yu, Yi Ma

TL;DR现代学习框架经常使用大量未标记数据来训练深度神经网络，通过解决简单的先验任务学习表示，并将这些表示用作下游任务的基础。本论文提出了第一个可以应用于大规模无监督表示学习的白盒设计范式，通过利用扩散、压缩和（掩码）补全之间的基本连接，导出了一种名为 CRATE-MAE 的深度变换器样式的掩码自编码器架构，其每个层的角色在数学上具有完全解释性：它们将数据分布转换为结构化表示并从中恢复。广泛的实证评估证实了我们的分析洞见。CRATE-MAE 在大规模图像数据集上表现出高度有希望的性能，而仅使用与相同模型配置的标准掩码自编码器相比，参数仅占 30%。CRATE-MAE 学习到的表示具有显式结构，同时包含语义含义。

Abstract

Modern learning frameworks often train deep neural networks with massive amounts of unlabeled data to learn representations by solving simple pretext tasks, then use the representations as foundations for downstream tasks. These networks are empirically designed; as such, they are usua

deep neural networks unsupervised representation learning white-box design masked autoencoder large-scale imagery datasets

发现论文，激发创造

扩散模型作为遮盖自编码器

本文提出一种使用掩码自编码器作为扩散模型的条件，进而重复生成预训练视觉表示的方法，具备强大的下游识别任务的初始化能力，高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时，本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。

Apr, 2023

ConvMAE：掩码卷积与掩码自编码器相遇

本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入，提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法，可以在保证计算效率的同时提高了分类和检测的准确率。

May, 2022

通过稀疏率减少实现的白盒变压器：压缩无外乎此

我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏，该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看，包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地，我们从这个目标的部分交替优化中推导出一个变压器块：多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示，随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构，其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明，前述压缩编码的逆可以由同一类 CRATE 架构实现。因此，这些衍生的白盒架构对编码器和解码器都是通用的。实验证明，尽管简单，但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示，并实现了与高度工程化的基于变压器的模型（ViT，MAE，DINO，BERT 和 GPT2）非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。

Nov, 2023

掩码自编码器是强大的神经架构搜索学习者

提出了一种基于遮蔽自编码器的新型神经架构搜索（NAS）框架，该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标，我们的方法能够在不损害性能和泛化能力的情况下，有效地发现网络架构。此外，我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search（DARTS）方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性，并提供了其优于基线方法的经验证据。

Nov, 2023

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

CL-MAE：课程学习掩码自编码器

我们提出了一种基于课程学习的掩模自编码器（CL-MAE），通过不断增加自监督重建任务的复杂性，逐渐提高模型学习更复杂和可转移的表示能力，并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练，通过在五个下游任务上的实证结果验证了我们的猜想，展示了课程学习在自监督掩模自编码器中的成功应用。

Aug, 2023

为视觉领域扩展白盒变压器

CRATE-$\alpha$ 是一种基于稀疏推理的白盒变换器架构，通过对 CRATE 结构进行小幅改进和轻量级训练，能够实现较大模型规模和数据集的可扩展性，同时保持模型的可解释性和提高模型性能，例如在 ImageNet 分类上的准确率达到 83.2% 或 85.1%。

May, 2024

表面遮罩自编码器：供大脑皮层成像数据的自监督

本研究通过使用自监督学习以及具有表面网格的视觉转换器架构，构建了模型以模拟皮层结构，进而实现对皮层表面的学习。通过在较大数据集上进行预训练，可以获得强大的表示能力，用于在数据少的情景下进行微调，而在皮层表型回归任务中，预训练可以带来 26% 的性能提升和 80% 的更快收敛速度。

Aug, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021