PMatch:用于密集几何匹配的成对掩蔽图像建模
本文提出了一种名为 MimCo 的新型、灵活的预训练框架,通过两阶段的预训练,将 MIM 和对比学习相结合,提高了 MIM 预训练表示的线性可分性,取得了优越的性能。
Sep, 2022
本文提出了一种名为 GeoMIM 的多相机视觉转换器,通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM,以改善多视图基于相机的三维检测,并在 nuscenes 基准测试中取得了最新的表现。
Mar, 2023
本研究通过可视化和实验的角度比较了遮蔽图像模型(MIM)和长期优势的监督式预训练模型的关键表现差异,发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性,从而在较弱语义或细粒度分类任务中表现出色。
May, 2022
现有的跨模态域自适应方法在三维语义分割中仅通过跨模态特征匹配预测结果的 2D-3D 补充性,然而,在目标领域缺乏监督的情况下,这种补充性并不总是可靠的。我们为解决缺乏监督的问题,将蒙版建模引入该任务,并提出了一种名为 Mx2M 的方法,该方法利用蒙版的跨模态建模来减小域间差距。我们的 Mx2M 包含两个组成部分。一个是核心解决方案,即跨模态去除和预测(xMRP),它使得 Mx2M 适应各种情景并提供跨模态自监督。另一个是一种新的跨模态特征匹配方式,即动态跨模态滤波器(DxMF),它确保整个方法动态地使用更合适的 2D-3D 补充性。在包括白天 / 夜晚、美国 / 新加坡和 A2D2/SemanticKITTI 在内的三个跨模态自适应场景上,对 Mx2M 的评估在许多指标上取得了显著的改进。
Jul, 2023
本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。
May, 2022
本文提出了一种名为 MaskAlign 的高效 MIM 范例,将可视化小片段功能与老师模型提取的整体图像特征相一致,证明即使在掩蔽区域没有重建的情况下,蒙面建模也不会失去效率。与 Dynamic Alignment 相结合,MaskAlign 能够实现高效的最新性能。
Nov, 2022
本文提出了一种简单的自监督预训练框架 ConMIM,使用对比学习的方法在图像补丁级别上进行去噪自编码,通过不同的异构设计来提高网络的预训练性能,从而在多个视觉任务上实现了竞争性结果,如 ImageNet 分类,语义分割,目标检测和实例分割等。
May, 2022
本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制,并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中,我们减少了基于像素的遮罩图像建模的建模能力浪费,提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知,我们是首次系统研究多级特征融合在类似标准 Vision Transformer(ViT)的各向同性架构中的应用。值得注意的是,当应用于较小的模型(例如 ViT-S)时,我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。
Aug, 2023
本文提出了 PiMAE,一个自我监督的预训练框架,旨在通过三个方面促进 3D 和 2D 交互,以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后,我们发现交互式学习点 - 图像特征是不平凡的,并通过 2.9%,6.7%和 2.4%显着提高了多个 3D 检测器,2D 检测器和少样本分类器。
Mar, 2023
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024