MonoMAE:通过深度感知掩蔽自编码器增强单目 3D 检测
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
通过使用 3D 到多视图掩码自编码器,充分利用 3D 点云的多模属性,提出了一种全新的方法,这不仅丰富了模型对几何结构的理解,还利用了点云的固有多模性能,有效地改进了各种任务,包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。
Nov, 2023
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器(UniM$^2$AE)模型,通过将图像与激光雷达点云的特征融合,实现了对多模态数据的高效处理,提高了三维物体检测和鸟瞰图分割的效果。
Aug, 2023
本文提出了 PiMAE,一个自我监督的预训练框架,旨在通过三个方面促进 3D 和 2D 交互,以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后,我们发现交互式学习点 - 图像特征是不平凡的,并通过 2.9%,6.7%和 2.4%显着提高了多个 3D 检测器,2D 检测器和少样本分类器。
Mar, 2023
提出 Point-M2AE,一种新的多层次自监督学习框架,用于使用 Masked Autoencoders 预训练 3D 点云的分层表示学习,其具有优越的性能并超过了其他完全训练的方法。
May, 2022
为了学习紧凑的 3D 表示,我们提出了一个简单而有效的 Point Feature Enhancement Masked Autoencoders (Point-FEMAE),它主要由一个全局分支和一个局部分支组成,通过全局随机和局部块掩码策略获得的全局和局部未经掩码的补丁提取点特征,然后使用特定的解码器进行重构,同时,为了进一步增强局部分支中的特征,我们提出了一个局部增强模块,使用局部补丁卷积方法感知更大尺度上的细粒度局部上下文。
Dec, 2023
本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下,实现与先前的自我监督方法相比更好的表现。
May, 2023
我们提出了一种 3D 形状补全方法,通过单个 RGB-D 图像从复杂场景中恢复多个对象的完整几何形状。我们的方法 OctMAE 利用八叉树 U-Net 和潜在的 3D MAE,在本地和全局几何推理中实现高质量和接近实时的多对象形状补全,并引入了遮挡掩码策略和 3D 旋转嵌入,以提高性能和形状补全质量。通过创建一个大规模逼真的数据集,我们的方法在合成和现实世界数据集上都优于当前最先进的方法,并展示了强大的零样品学习能力。
Mar, 2024