MonoGRNet: 基于几何推理的单目三维物体定位网络
本篇研究提出了一种基于关键点的方法,利用单个 RGB 图像进行三维目标检测和定位,该网络基于 2D 关键点检测和几何推理方法,同时估计 2D 特征和全局 3D 姿态,最终在 KITTI 数据集中达到了最好的性能表现。
May, 2019
本研究提出了一种基于几何关系的 monocular 三维物体检测方法,通过单独的三维区域建议网络和深度感知卷积层,能够有效地改善基于图像的三维物体检测在自动驾驶领域中的表现。在 KITTI 数据集上,与其他之前的方法相比,M3D-RPN 方法在单眼三维物体检测和俯视图检测任务中都表现出显著的性能提升。
Jul, 2019
KM3D-Net 提出了一种基于 RGB 图像和关键点的单次检测框架,通过结合完全卷积模型、几何约束和不依赖 CAD 模型、深度生成器,以及一种有效的半监督训练策略,实现了卓越的检测表现,并超过以前所有的最先进方法。
Sep, 2020
通过研究路面对 3D 检测提供的额外信息,提出了一种嵌入式神经网络,能够充分利用这些应用程序特定的先验知识,从而实现使用单个 RGB 摄像机确定环境中对象的位置和方向的三维目标检测。
Feb, 2021
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
本文提出了一种名为 SGM3D 的新方法,通过引入多粒度域自适应和基于 IoU 匹配的对齐方法,将立体 3D 特征适应到单眼检测中,显著提高了检测性能。实验证明,该方法在 KITTI 和 Lyft 数据集上取得了最先进的结果。
Dec, 2021
本文提出了首个基于 RGB 图像的 6 自由度机器人抓取方法 MonoGraspNet,通过利用稳定的 2D 特征以及关键点热度图和法向量图来同时解决处理透明或反射材料等光学难题,实验表明我们的方法在抓取常见物体方面能够达到有竞争性的结果,并在在抓取光学难题物体方面领先于深度学习方法,此外我们也公开了一个包含 120 个物品的多视角多场景数据集和 2000 万的准确抓取标签。
Sep, 2022
通过将单目物体深度估计重新制定为渐进细化问题,并提出一个联合的语义和几何代价体来建模深度误差,通过细化框架有效地缓解深度误差,在 KITTI 和 Waymo 数据集上实现了最先进的结果。
Mar, 2022
本研究比较了直接和间接方法,提出了一种几何引导的直接回归方法(GDR-Net)来从几何表示学习 6D 位姿,结果显示我们的方法在 LM, LM-O 和 YCB-V 数据集上显著优于现有的最先进技术
Feb, 2021
提出了一种名为 MonoRUn 的检测框架,该框架通过自我监督学习,仅使用简单的三维边界框注释学习密集的对应关系和几何学,并利用不确定性感知的区域重建网络来回归像素相关的三维目标坐标,并利用预测的不确定性通过整个下游模块,实现对象姿态的估计和协方差,实验表明该方法在 KITTI 基准测试中优于当前最先进的方法。
Mar, 2021