无感知，更高效产出：用掩码自编码器预训练 LiDAR 感知以实现超高效 3D 感知

Jun, 2024

无感知，更高效产出：用掩码自编码器预训练 LiDAR 感知以实现超高效 3D 感知

Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing

Sina Tayebati, Theja Tulabandhula, Amit R. Trivedi

TL;DR通过提出低成本 LiDAR 感知数据流、径向遮罩自编码等方法，减少能量消耗并提高预测准确性，以便在无人机器人和自主导航中节省传感器的能量和延长电池寿命。

Abstract

In this work, we propose a disruptively frugal lidar perception dataflow that generates rather than senses parts of the environment that are either predictable based on the extensive training of the environment or have limited consequence to the overall →

frugal lidar perception radially masked autoencoding low-power robotics autonomous navigation prediction accuracy

发现论文，激发创造

实现可传递的多模态感知表示学习自主性：NeRF-Supervised 遮蔽自动编码器

该论文提出了一种统一的自监督预训练框架，通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建，实现可传输的多模态感知表示学习。实验证明，通过该方法学习到的表示对于多样化的三维感知下游任务（包括三维物体检测和 BEV 地图分割）具有良好的可迁移性，并且可享受掩蔽自编码器和神经辐射场机制的协同效应。

Nov, 2023

GD-MAE：基于 MAE 预训练的 LiDAR 点云生成解码器

本文提出了一种基于生成解码器的 Masked Autoencoders（GD-MAE）方法用于自动合并周围上下文信息，以恢复多层次融合遮蔽几何知识的三维点云，能在保持良好性能的情况下探索各种遮蔽策略，且实验结果表明该方法在多个大单元基准上均有一致的效果提升与强鲁棒性与泛化能力。

Dec, 2022

NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

神经场在计算机视觉和机器人技术中表现出色，能够理解三维视觉世界，例如推断语义、几何和动态。我们使用神经场进行自监督预训练，尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示，然后将标准的三维视觉 Transformer 应用于 NeRF 来进行特定形式的训练。我们利用 NeRF 的体积网格作为 Transformer 的密集输入，与像点云等其他三维表示进行对比。通过将相机轨迹用于采样，我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖 NeRF 的辐射和密度网格的随机补丁并使用标准的三维 Swin Transformer 重建这些补丁，从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的 posed-RGB 数据上规模化地对这个表示进行预训练，总共涉及超过 160 万幅图像。预训练后，编码器可以用于有效的三维迁移学习。我们提出的 NeRF-MAE 自监督预训练方法在各种具有挑战性的三维任务上表现出色，利用未标记的 posed 2D 数据进行预训练，相较于自监督三维预训练和 NeRF 场景理解基线，在 Front3D 和 ScanNet 数据集上的三维物体检测的 AP50 和 AP25 绝对性能提升分别超过 20％和 8％。

Apr, 2024

自监督先训练用于可迁移多模态感知

这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

May, 2024

R-MAE: 区域遇见掩模自编码器

本研究探讨了基于区域的检测器在无监督学习中的应用，使用掩膜自编码和自生成对抗网络（GAN）等方法进行重构预训练，提高了图像分割的精度和效率。

Jun, 2023

PersonMAE: 使用遮罩自编码器进行人物再识别预训练

我们提出了一个简洁而有效的预训练框架，名为 PersonMAE，通过引入两个核心设计到遮挡自编码器中，以更好地为 Person Re-ID 任务提供服务，并在四个下游任务中实现了最先进的性能。

Nov, 2023

通过查询相机特征重构 LiDAR 数据的 MaskedFusion360

本研究提出了一种自监督的方法，融合了激光雷达和摄像头数据，训练深度学习模型从融合的数据中恢复遮挡的激光雷达数据，并且通过在稠密球形 LiDAR 投影中融合鱼眼相机裁剪的特征，与使用鸟瞰表示法进行的相关方法相比，减少了视场变换的学习和额外模块的需求。

Jun, 2023

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

掩码自编码器是强大的神经架构搜索学习者

提出了一种基于遮蔽自编码器的新型神经架构搜索（NAS）框架，该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标，我们的方法能够在不损害性能和泛化能力的情况下，有效地发现网络架构。此外，我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search（DARTS）方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性，并提供了其优于基线方法的经验证据。

Nov, 2023

LoMAE：低剂量 CT 去噪的低层次视觉遮蔽自编码器

通过引入一种名为 LoMAE 的低水平视觉 MAE 模型，本研究展示了一种提高 transformer 去噪性能的方法，极大地减少了对干净数据的依赖，并在不同噪声水平下展现了显著的鲁棒性和普适性。

Oct, 2023