- 增强掩模自编码器的伪标记
提出了一种增强的方法,通过集成伪标记和基于标记的重建来提高 Masked Autoencoders(MAE)的性能,在网络中促进实例级别的区分并捕捉局部上下文。
- 大规模遥感数据集上有效的掩码自编码器学习扩展
这篇研究介绍了 RS-4M,一个大规模的数据集,用于在遥感图像上进行高效的 Masked Image Modeling(MIM)训练。同时提出了一种名为 SelectiveMAE 的高效 MIM 方法,通过动态编码和重构一部分基于语义丰富性 - SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示
本研究提出了一种简洁而有效的框架 SemanticMIM,以整合遮罩图像建模(MIM)和对比学习(CL)的优势,用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析,揭示了它们互补优势根源于压缩和重建两个不同阶段,而 Semant - 观察、分析与解决:通过带掩码图像建模预训练探索强大轻量化视觉 Transformer
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tu - 基于显著性的自适应遮蔽:强化预训练中的令牌动态性重新审视
SBAM 通过优先考虑标记的显著性,引入一种新颖且经济高效的方法,显著增强了基于掩膜图像建模的预训练性能,提供了针对每个数据样本的 ' 量身定制 ' 掩膜比例的自适应策略,并在 ImageNet-1K 数据集上显著提升了基于掩膜的预训练的最 - 有效预训练的蒙版标记的新特性
通过优化蒙面标记以解决自我监督学习中的效率问题,该方法称为蒙面标记优化(MTO),可实现与最新方法相当的预训练性能,减少近 50% 的预训练时期。
- CVPR在多传感器地理空间基础模型中连接远程传感器
msGFM 是一个多传感器地理空间基础模型,有效地汇集来自四个关键传感器模态的数据,适用于各种类型的传感器,包括遥感图像分类、分割、云去除和泛光等任务,为发展多传感器地理空间预训练模型提供指南。
- DailyMAE:朝着一天内预训练掩膜自编码器
本研究提出了有效的训练方案,以降低数据加载瓶颈和维持预训练性能,实现了高效的自监督学习训练,为更广泛的可访问性和推动自监督学习研究的进展铺平了道路。
- Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性
本文提供了首个关于 MIM 自监督预训练中使用 softmax 注意力的一层 transformer 的端到端理论,旨在解释 transformer 的理论机制,并分析其训练动态,以同时考虑输入和位置嵌入,在数据分布中产生局部和多样化的注意 - COLING语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
- 掩蔽 Gamma-SSL:通过掩蔽图像建模学习不确定性估计
该研究提出了一种语义分割网络,能够在单次前向传递中生成高质量的不确定性估计。通过基于掩膜图像建模(MIM)方法,我们利用基础模型和无标签数据的通用表示来解决增强超参数问题,使得方法更简洁。为了解决在安全关键应用中因训练数据中的偏差而导致的错 - 通过部分信息辨识和跨层交互学习聚类表示
本文介绍了一种名为 PICI 的新型深度图像聚类方法,通过部分信息辨别和跨层级交互在联合学习框架中进行。通过使用 Transformer 编码器作为骨干网络,我们形成了具有两个并行增广视图的蒙版图像建模。从通过 Transformer 编码 - 频率掩蔽用于通用深度伪造检测
通过探索遮蔽图像建模,我们提出了一种新颖的频率域深伪造图像检测方法,具有优异的泛化能力和显著的性能提升。
- 通过动态令牌变形进行图像遮盖建模
基于动态令牌变形的掩码图像建模(DTM)是一种有前景的自监督学习方法,可应用于不同的 SSL 框架,在不引入额外的训练成本的情况下有效改进表现,并经过多个实验证明其在各种下游任务上的可迁移性。
- 预训练通用医学图像变换器
通过使用自监督学习和空间自适应卷积技术,我们构建了一个通用的医学图像处理模型,可以高效处理各种医学图像数据,并在医学图像分类和分割任务上表现出更好的性能和标签效率。
- MIMIR:基于互信息的对抗性鲁棒性的遮蔽图像建模
本论文提出了一种新颖的防御方法 MIMIR,通过在预训练阶段利用 Masked Image Modeling 构建不同的对抗训练方法,从而提高 Vision Transformers 的鲁棒性和性能。实验证明,相较于基线模型,MIMIR 在 - 利用遮盖图像建模来改善受监督的表征学习
通过将 MIM 集成到现有的监督训练方法中,我们设计了一种简单而有效的方案,通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器,并引入一个基于遮蔽图像输入的 MIM 任务,来改善下游任务的学习表示质量,如分类、图 - BIM: 基于块的自监督学习与图像模型掩膜
我们引入了一种新的学习框架,即分块式遮蔽图像建模(BIM),用于解决遮蔽图像建模(MIM)的计算资源需求高的问题,并在保持卓越性能的同时大大降低内存消耗,同时实现多个深度不同的 DNN 骨干的并发训练,从而降低与单独训练每个 DNN 骨干相 - SS-MAE:用于多源遥感图像分类的空间 - 频谱屏蔽自编码器
提出了一种空间 - 光谱掩码自编码器 (SS-MAE) 用于高光谱成像和激光雷达 / 合成孔径雷达数据的联合分类,实现了空间和光谱表示的充分利用,并通过在训练阶段添加两个轻量级卷积神经网络来补充局部特征,成功在三个公开数据集上验证了 SS- - HAP: 面向人类感知的结构感知遮挡图像建模
模型预训练对以人为中心的感知至关重要。本文介绍了一种称为 MIM 的预训练方法,并在其基础上引入了人体结构先验,通过人体部位的引导来指导掩码采样过程,从而更好地捕捉人体结构信息。此外,我们还提出了一种结构不变的对齐损失,通过人体部位先验来引