MonoGround: 从地面上检测单目三维物体
通过研究路面对 3D 检测提供的额外信息,提出了一种嵌入式神经网络,能够充分利用这些应用程序特定的先验知识,从而实现使用单个 RGB 摄像机确定环境中对象的位置和方向的三维目标检测。
Feb, 2021
该研究提出了一种新的基于智能路边摄像头的道路单目三维物体检测框架 MonoGAE,通过使用地面感知嵌入和交叉注意机制将地面几何信息与图像特征相结合,从而提高自主驾驶系统对道路场景的感知精度。
Sep, 2023
本篇研究提出一种基于几何建模的投影模型方法,用于改进单目三维物体检测中的深度估计问题,实验证明该方法使得检测性能得到了显著提升。
Jul, 2021
通过双视图检测系统 DVDET,提出了一种基于地理变形的训练模块,实现了 2D 图像空间和 3D 物理空间的空中单目物体检测,并利用新的数据集 AM3D,证明了模型的可行性及性能。
Aug, 2022
本文提出了一种名为 SGM3D 的新方法,通过引入多粒度域自适应和基于 IoU 匹配的对齐方法,将立体 3D 特征适应到单眼检测中,显著提高了检测性能。实验证明,该方法在 KITTI 和 Lyft 数据集上取得了最先进的结果。
Dec, 2021
提出 MonoGRNet 用于从单目 RGB 图像通过几何推理在观测到的 2D 投影和未观测到的深度维度上进行遮挡物体的 3D 检测,并通过优化 3D 包围框的位置和姿态实现关节学习,表现出最先进的性能。
Nov, 2018
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
本文研究从立体图像中检测 3D 物体的问题,提出了使用 3D 锚点构建物体级对应的方法来增强检测和定位的深度神经网络,使用经济高效的渠道重新加权策略来增强表示特征。在 KITTI 数据集上,这些方法都优于现有方法。
Jun, 2019