基于显著性的自适应遮蔽：强化预训练中的令牌动态性重新审视

Apr, 2024

基于显著性的自适应遮蔽：强化预训练中的令牌动态性重新审视

Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training

Hyesong Choi, Hyejin Park, Kwang Moo Yi, Sungmin Cha, Dongbo Min

TL;DRSBAM 通过优先考虑标记的显著性，引入一种新颖且经济高效的方法，显著增强了基于掩膜图像建模的预训练性能，提供了针对每个数据样本的 ' 量身定制 ' 掩膜比例的自适应策略，并在 ImageNet-1K 数据集上显著提升了基于掩膜的预训练的最新方法。

Abstract

In this paper, we introduce saliency-based adaptive masking (SBAM), a novel and cost-effective approach that significantly enhances the pre-training performance of →

saliency-based adaptive masking masked image modeling pre-training masking ratios adaptive masking ratio

发现论文，激发创造

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024

通过动态令牌变形进行图像遮盖建模

基于动态令牌变形的掩码图像建模（DTM）是一种有前景的自监督学习方法，可应用于不同的 SSL 框架，在不引入额外的训练成本的情况下有效改进表现，并经过多个实验证明其在各种下游任务上的可迁移性。

Dec, 2023

BA-SAM：可扩展的偏置注意力掩码用于分割任何模型

本文提出了 Scalable Bias-Mode Attention Mask（BA-SAM）解决图像分辨率变化对 Segment Anything Model (SAM) 的影响，并实现了零样本泛化能力。通过引入新的缩放因子和偏置模式注意力掩码，BA-SAM 在不改变结构的情况下，增强了模型对不同图像分辨率的适应性，同时在零样本学习和微调中取得了显著的性能提升。

Jan, 2024

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

自适应掩蔽生成情感转移

本文提出了一种基于 AM-ST 模型的情感转移方法，通过学习任务相关的蒙版参数，使用注意力机制和情感感知掩膜语言模型来捕捉多级语义并填充蒙版空白位置，实验结果表明，本文提出的方法优于现有方法。

Feb, 2023

掩蔽以改进卷积神经网络的对比式自监督学习，并揭示显著性

通过在卷积神经网络中引入掩蔽操作作为额外的数据增强方法，并显式考虑显著性约束，本研究提出了一种改进的对比学习框架，以减轻包括掩蔽操作在内的对比学习中存在的问题，并在多个数据集、对比学习机制和下游任务上进行的广泛实验验证了其有效性和卓越性能。

Sep, 2023

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

BIM: 基于块的自监督学习与图像模型掩膜

我们引入了一种新的学习框架，即分块式遮蔽图像建模（BIM），用于解决遮蔽图像建模（MIM）的计算资源需求高的问题，并在保持卓越性能的同时大大降低内存消耗，同时实现多个深度不同的 DNN 骨干的并发训练，从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。

Nov, 2023

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023