无感知,更高效产出:用掩码自编码器预训练 LiDAR 感知以实现超高效 3D 感知
该论文提出了一种统一的自监督预训练框架,通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建,实现可传输的多模态感知表示学习。实验证明,通过该方法学习到的表示对于多样化的三维感知下游任务(包括三维物体检测和 BEV 地图分割)具有良好的可迁移性,并且可享受掩蔽自编码器和神经辐射场机制的协同效应。
Nov, 2023
本文提出了一种基于生成解码器的 Masked Autoencoders(GD-MAE)方法用于自动合并周围上下文信息,以恢复多层次融合遮蔽几何知识的三维点云,能在保持良好性能的情况下探索各种遮蔽策略,且实验结果表明该方法在多个大单元基准上均有一致的效果提升与强鲁棒性与泛化能力。
Dec, 2022
神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界,例如推断语义、几何和动态。我们使用神经场进行自监督预训练,尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示,然后将标准的三维视觉 Transformer 应用于 NeRF 来进行特定形式的训练。我们利用 NeRF 的体积网格作为 Transformer 的密集输入,与像点云等其他三维表示进行对比。通过将相机轨迹用于采样,我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖 NeRF 的辐射和密度网格的随机补丁并使用标准的三维 Swin Transformer 重建这些补丁,从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的 posed-RGB 数据上规模化地对这个表示进行预训练,总共涉及超过 160 万幅图像。预训练后,编码器可以用于有效的三维迁移学习。我们提出的 NeRF-MAE 自监督预训练方法在各种具有挑战性的三维任务上表现出色,利用未标记的 posed 2D 数据进行预训练,相较于自监督三维预训练和 NeRF 场景理解基线,在 Front3D 和 ScanNet 数据集上的三维物体检测的 AP50 和 AP25 绝对性能提升分别超过 20%和 8%。
Apr, 2024
这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式,利用 NeRF 支持的遮蔽自动编码器(NS-MAE)来提供高效且高性能的微调的预训练模型初始化,通过在神经辐射场(NeRF)中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据,证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性,该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估,例如 3D 对象检测和 BEV 地图分割。
May, 2024
我们提出了一个简洁而有效的预训练框架,名为 PersonMAE,通过引入两个核心设计到遮挡自编码器中,以更好地为 Person Re-ID 任务提供服务,并在四个下游任务中实现了最先进的性能。
Nov, 2023
本研究提出了一种自监督的方法,融合了激光雷达和摄像头数据,训练深度学习模型从融合的数据中恢复遮挡的激光雷达数据,并且通过在稠密球形 LiDAR 投影中融合鱼眼相机裁剪的特征,与使用鸟瞰表示法进行的相关方法相比,减少了视场变换的学习和额外模块的需求。
Jun, 2023
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。
May, 2022
提出了一种基于遮蔽自编码器的新型神经架构搜索(NAS)框架,该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标,我们的方法能够在不损害性能和泛化能力的情况下,有效地发现网络架构。此外,我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search(DARTS)方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性,并提供了其优于基线方法的经验证据。
Nov, 2023
通过引入一种名为 LoMAE 的低水平视觉 MAE 模型,本研究展示了一种提高 transformer 去噪性能的方法,极大地减少了对干净数据的依赖,并在不同噪声水平下展现了显著的鲁棒性和普适性。
Oct, 2023