MonoGRNet: 基于几何推理的单目三维物体定位网络

AAAINov, 2018

MonoGRNet: 基于几何推理的单目三维物体定位网络

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Zengyi Qin, Jinglu Wang, Yan Lu

TL;DR提出 MonoGRNet 用于从单目 RGB 图像通过几何推理在观测到的 2D 投影和未观测到的深度维度上进行遮挡物体的 3D 检测，并通过优化 3D 包围框的位置和姿态实现关节学习，表现出最先进的性能。

Abstract

Detecting and localizing objects in the real 3D space, which plays a crucial role in scene understanding, is particularly challenging given only a single RGB image due to the geometric information loss during imagery projection. We propose monogrnet for the amodal →

3d object detection monocular rgb image geometric reasoning instance depth estimation monogrnet

发现论文，激发创造

基于关键点几何推理的单目三维物体检测

本篇研究提出了一种基于关键点的方法，利用单个 RGB 图像进行三维目标检测和定位，该网络基于 2D 关键点检测和几何推理方法，同时估计 2D 特征和全局 3D 姿态，最终在 KITTI 数据集中达到了最好的性能表现。

May, 2019

M3D-RPN: 单目三维区域建议网络用于目标检测

本研究提出了一种基于几何关系的 monocular 三维物体检测方法，通过单独的三维区域建议网络和深度感知卷积层，能够有效地改善基于图像的三维物体检测在自动驾驶领域中的表现。在 KITTI 数据集上，与其他之前的方法相比，M3D-RPN 方法在单眼三维物体检测和俯视图检测任务中都表现出显著的性能提升。

Jul, 2019

使用几何约束嵌入和半监督训练的单目 3D 检测

KM3D-Net 提出了一种基于 RGB 图像和关键点的单次检测框架，通过结合完全卷积模型、几何约束和不依赖 CAD 模型、深度生成器，以及一种有效的半监督训练策略，实现了卓越的检测表现，并超过以前所有的最先进方法。

Sep, 2020

自动驾驶用基于地面的单目三维物体检测

通过研究路面对 3D 检测提供的额外信息，提出了一种嵌入式神经网络，能够充分利用这些应用程序特定的先验知识，从而实现使用单个 RGB 摄像机确定环境中对象的位置和方向的三维目标检测。

Feb, 2021

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

SGM3D: 双目引导下的单目三维物体检测

本文提出了一种名为 SGM3D 的新方法，通过引入多粒度域自适应和基于 IoU 匹配的对齐方法，将立体 3D 特征适应到单眼检测中，显著提高了检测性能。实验证明，该方法在 KITTI 和 Lyft 数据集上取得了最先进的结果。

Dec, 2021

MonoGraspNet: 使用单一 RGB 图像进行 6 自由度抓取

本文提出了首个基于 RGB 图像的 6 自由度机器人抓取方法 MonoGraspNet，通过利用稳定的 2D 特征以及关键点热度图和法向量图来同时解决处理透明或反射材料等光学难题，实验表明我们的方法在抓取常见物体方面能够达到有竞争性的结果，并在在抓取光学难题物体方面领先于深度学习方法，此外我们也公开了一个包含 120 个物品的多视角多场景数据集和 2000 万的准确抓取标签。

Sep, 2022

MonoJSG: 单目三维物体检测的联合语义和几何代价体

通过将单目物体深度估计重新制定为渐进细化问题，并提出一个联合的语义和几何代价体来建模深度误差，通过细化框架有效地缓解深度误差，在 KITTI 和 Waymo 数据集上实现了最先进的结果。

Mar, 2022

GDR-Net: 基于几何引导的单目 6D 物体位姿估计直接回归网络

本研究比较了直接和间接方法，提出了一种几何引导的直接回归方法（GDR-Net）来从几何表示学习 6D 位姿，结果显示我们的方法在 LM, LM-O 和 YCB-V 数据集上显著优于现有的最先进技术

Feb, 2021

MonoRUn: 单目三维物体检测通过重建和不确定性传播

提出了一种名为 MonoRUn 的检测框架，该框架通过自我监督学习，仅使用简单的三维边界框注释学习密集的对应关系和几何学，并利用不确定性感知的区域重建网络来回归像素相关的三维目标坐标，并利用预测的不确定性通过整个下游模块，实现对象姿态的估计和协方差，实验表明该方法在 KITTI 基准测试中优于当前最先进的方法。

Mar, 2021