MonoMAE：通过深度感知掩蔽自编码器增强单目 3D 检测

May, 2024

MonoMAE：通过深度感知掩蔽自编码器增强单目 3D 检测

MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders

Xueying Jiang, Sheng Jin, Xiaoqin Zhang, Ling Shao, Shijian Lu

TL;DR利用具有遮罩的自编码器实现了单目三维物体检测，通过遮罩和重建特征空间中的物体来解决物体遮挡的问题，并学习到了丰富的三维表示，具有出色的检测性能和泛化能力。

Abstract

monocular 3d object detection aims for precise 3D localization and identification of objects from a single-view image. Despite its recent progress, it often struggles while handling pervasive object occlusions that tend to complicate and degrade the prediction of object dimensions, dep

monocular 3d object detection object occlusion masking reconstruction depth-aware masking

发现论文，激发创造

MonoDTR: 深度感知变换器实现单目 3D 物体检测

提出了一种新颖的端到端深度感知装换网络 MonoDTR，用于解决自动驾驶中单目 3D 物体检测的任务，该网络包括深度感知特征增强模块（DFE）以及深度感知 Transformer 模块（DTR），通过辅助监督学习无需额外计算的深度感知特征，并全局整合上下文和深度感知特征；深度位置编码（DPE）注入深度位置提示到 Transformer 中，并通过实验证明该方法优于现有最先进方法并可实现实时检测。

Mar, 2022

点云自监督学习：基于三维到多视角遮蔽自编码器

通过使用 3D 到多视图掩码自编码器，充分利用 3D 点云的多模属性，提出了一种全新的方法，这不仅丰富了模型对几何结构的理解，还利用了点云的固有多模性能，有效地改进了各种任务，包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。

Nov, 2023

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

MonoDETR：基于深度引导的 Transformer 用于单目三维物体检测

本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询，并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入，然后提出了一个深度引导的解码器，通过深度交叉关注模块对查询与场景深度特征进行交互，每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构，在 KITTI 基准测试上取得了最新成果，并在广泛的消融研究中证明了该方法的有效性，具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。

Mar, 2022

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

PiMAE: 基于点云和图像的交互式遮罩自编码器用于 3D 物体检测

本文提出了 PiMAE，一个自我监督的预训练框架，旨在通过三个方面促进 3D 和 2D 交互，以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后，我们发现交互式学习点 - 图像特征是不平凡的，并通过 2.9％，6.7％和 2.4％显着提高了多个 3D 检测器，2D 检测器和少样本分类器。

Mar, 2023

Point-M2AE：基于多尺度掩码自编码器的分层点云预训练

提出 Point-M2AE，一种新的多层次自监督学习框架，用于使用 Masked Autoencoders 预训练 3D 点云的分层表示学习，其具有优越的性能并超过了其他完全训练的方法。

May, 2022

通过点特征增强掩膜自编码器实现紧凑 3D 表示

为了学习紧凑的 3D 表示，我们提出了一个简单而有效的 Point Feature Enhancement Masked Autoencoders (Point-FEMAE)，它主要由一个全局分支和一个局部分支组成，通过全局随机和局部块掩码策略获得的全局和局部未经掩码的补丁提取点特征，然后使用特定的解码器进行重构，同时，为了进一步增强局部分支中的特征，我们提出了一个局部增强模块，使用局部补丁卷积方法感知更大尺度上的细粒度局部上下文。

Dec, 2023

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

零样本多物体形状完成

我们提出了一种 3D 形状补全方法，通过单个 RGB-D 图像从复杂场景中恢复多个对象的完整几何形状。我们的方法 OctMAE 利用八叉树 U-Net 和潜在的 3D MAE，在本地和全局几何推理中实现高质量和接近实时的多对象形状补全，并引入了遮挡掩码策略和 3D 旋转嵌入，以提高性能和形状补全质量。通过创建一个大规模逼真的数据集，我们的方法在合成和现实世界数据集上都优于当前最先进的方法，并展示了强大的零样品学习能力。

Mar, 2024