基于显著性的自适应遮蔽:强化预训练中的令牌动态性重新审视
基于动态令牌变形的掩码图像建模(DTM)是一种有前景的自监督学习方法,可应用于不同的 SSL 框架,在不引入额外的训练成本的情况下有效改进表现,并经过多个实验证明其在各种下游任务上的可迁移性。
Dec, 2023
本文提出了 Scalable Bias-Mode Attention Mask(BA-SAM)解决图像分辨率变化对 Segment Anything Model (SAM) 的影响,并实现了零样本泛化能力。通过引入新的缩放因子和偏置模式注意力掩码,BA-SAM 在不改变结构的情况下,增强了模型对不同图像分辨率的适应性,同时在零样本学习和微调中取得了显著的性能提升。
Jan, 2024
本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。
Mar, 2022
本文提出了一种基于 AM-ST 模型的情感转移方法,通过学习任务相关的蒙版参数,使用注意力机制和情感感知掩膜语言模型来捕捉多级语义并填充蒙版空白位置,实验结果表明,本文提出的方法优于现有方法。
Feb, 2023
通过在卷积神经网络中引入掩蔽操作作为额外的数据增强方法,并显式考虑显著性约束,本研究提出了一种改进的对比学习框架,以减轻包括掩蔽操作在内的对比学习中存在的问题,并在多个数据集、对比学习机制和下游任务上进行的广泛实验验证了其有效性和卓越性能。
Sep, 2023
本研究采用掩蔽技术生成显著性地图,发现训练分类器的同时,采用掩蔽技术生成显著性地图具有很高的性能,并且 10 个样本每类也可以显著提高显著性地图的精度。
Oct, 2020
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
Nov, 2022
我们引入了一种新的学习框架,即分块式遮蔽图像建模(BIM),用于解决遮蔽图像建模(MIM)的计算资源需求高的问题,并在保持卓越性能的同时大大降低内存消耗,同时实现多个深度不同的 DNN 骨干的并发训练,从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。
Nov, 2023
本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。
Jun, 2023