通过测试时频域提示来提高遮蔽自动编码器的对抗鲁棒性

ICCVAug, 2023

通过测试时频域提示来提高遮蔽自动编码器的对抗鲁棒性

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting

Qidong Huang, Xiaoyi Dong, Dongdong Chen, Yinpeng Chen, Lu Yuan...

TL;DR本文研究了配备 BERT 预训练（例如 BEiT 和 MAE）的视觉变换器的敌对鲁棒性。令人惊讶的是，MAE 的敌对鲁棒性明显较差。我们的实证分析揭示了 BERT 预训练的敌对鲁棒性与重构目标的高相关性，即对屏蔽图像补丁的原始像素进行预测会降低模型的敌对鲁棒性。根据我们的分析，我们提供了一种简单而有效的方法来增强 MAE 的敌对鲁棒性，即使用从数据集提取的领域知识占据图像的中高频部分，从而缩小敌对扰动的优化空间。该方法通过在测试期间基于原型进行提示选择，将这些特定于聚类的频域视觉提示与输入图像结合。广泛的评估结果表明，我们的方法显著提高了 MAE 的敌对鲁棒性，同时保持其在 ImageNet-1k 分类中的清晰性能。

Abstract

In this paper, we investigate the adversarial robustness of vision transformers that are equipped with bert pretraining (\eg, BEiT, MAE). A surprising observation is that MAE has significantly worse adversarial r

adversarial robustness vision transformers bert pretraining adversarial perturbations medium-/high-frequency components

发现论文，激发创造

通过感知理解提高视觉表征学习

本文介绍了一种基于 MAE 的扩展方法，通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧，可以更好地重构像素并学习到更高级别的场景特征，进而在不使用其他预训练模型或数据的情况下，提高了图片分类等下游任务的性能，并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。

Dec, 2022

基于自举的遮蔽自编码器的视觉 BERT 预训练

BootMAE 是一种新的预训练方法，通过增加动量编码器和目标感知解码器来改进原始的 Masked Autoencoders。实验证明，使用 BootMAE 可以在多个视觉任务中获得更高的性能。

Jul, 2022

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023

具有挑战性的解码器有助于稠密通道检索的掩码自编码器预训练

该研究提出了一种基于点互信息的令牌重要性感知遮蔽策略，以加强解码器的挑战，进而构建编码器的表示能力，并在大规模监督通道检索数据集和领域外零 - shot 检索基准上验证了其有效性和鲁棒性。

May, 2023

遮盖自编码器作为时空学习器

研究了 Masked Autoencoders 在视频方面的应用，支持在没有时空归纳偏差的情况下，使用随机遮挡进行自编码器学习，观察到高比例遮挡可提高速度和表现，可以成为无监督学习的方法。

May, 2022

VarMAE: 可变分蒸馏自编码器的预训练，用于领域自适应语言理解

本文提出了一种基于 Transformer 的语言模型 ——VarMAE，通过上下文不确定性学习模块，将限定的语料库转化为平滑的潜在分布，从而为特定领域提供多样性和良好形式的上下文表示，实验证明 VarMAE 在科学和金融领域的 NLU 任务中，可以高效地适应有限资源的新领域。

Nov, 2022

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024