ImGeoNet: 图像诱导的几何感知体素表示用于多视角三维物体检测

ICCVAug, 2023

ImGeoNet: 图像诱导的几何感知体素表示用于多视角三维物体检测

ImGeoNet: Image-induced Geometry-aware Voxel Representation for Multi-view 3D Object Detection

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang...

TL;DR我们提出了 ImGeoNet，这是一个基于多视图图像的 3D 物体检测框架，通过图像诱导的几何感知体素表示对 3D 空间进行建模。ImGeoNet 通过学习从多视图图像中诱导几何感知来减轻体素空间中的混淆，并且在推理阶段只需要来自多视图的图像。此外，我们可以利用强大的预训练 2D 特征提取器来优化我们的表示，从而获得更强大的性能。通过在 ARKitScenes、ScanNetV2 和 ScanNet200 三个室内数据集上进行定量和定性实验，我们验证了 ImGeoNet 的有效性，并证明它在检测精度方面优于当前最先进的基于多视图图像的方法 ImVoxelNet。此外，ImGeoNet 在只利用 40 个视图的情况下，达到了与 ImVoxelNet 利用 100 个视图相当的结果，显示出较高的数据效率。此外，我们的研究表明，我们提出的图像诱导的几何感知表示可以使基于图像的方法在两种实际场景中实现比重点云方法 VoteNet 更高的检测准确性：（1）点云稀疏且嘈杂的场景，例如 ARKitScenes，以及（2）涉及多样化对象类别，特别是小对象类别的情况，例如 ScanNet200。

Abstract

We propose imgeonet, a multi-view image-based 3d object detection framework that models a 3D space by an image-induced geometry-aware voxel repre

imgeonet 3d object detection multi-view images geometry-aware voxel representation detection accuracy

发现论文，激发创造

ImVoxelNet：用于单目 & 多视角下一般性 3D 物体检测的图像到体素的投影

本文介绍了通过多视角 RGB 图像完成 3D 对象检测的方法，并提出了一种全新的完全卷积方法 ImVoxelNet，它在 KITTI（单视角）和 nuScenes（多视角）基准测试以及 SUN RGB-D 数据集上均取得了业内领先的效果，在 ScanNet 上创造了新的多视角 3D 对象检测基准。

Jun, 2021

基于体素的单图像多物体三维检测和重建

该研究提出了一种基于 3D 体素特征的中心点检测方法，其中包括一个有效的粗细重建模块，可从单个 2D 图像中检测和重建多个物体的 3D 位置和形状。

Nov, 2021

VMNet：基于体素 - 网格网络的几何感知三维语义分割

本篇论文介绍了一种基于体素和网格表达，利用欧几里得信息和测地信息的深度学习体系结构 VMNet 用于室内场景的 3D 语义分割，并在实验证明了其优越性能，尤其是在大规模的 ScanNet 数据集上。

Jul, 2021

GeoAuxNet：面向多传感器点云的通用三维表示学习

使用几何 - 体素辅助学习的方法，通过提供对多传感器点云的附加解释，使得体素表示可以获取点级几何信息，并支持体素骨干在多传感器点云上更好的泛化能力。我们的方法在联合多传感器数据集上表现出色，超越了其他模型，并在每个单一数据集上与现有的专家方法取得了竞争性结果。

Mar, 2024

VoxelNet：基于点云的三维物体检测的端到端学习

VoxelNet 是一种针对点云图像检测的深度网络，可以将点云分割成等间距的三维体素，并通过新引入的体素特征编码层将每组点转换为统一的特征表示，从而生成描述性的体积表示，并连接 RPN 以生成检测。

Nov, 2017

HVNet：用于基于激光雷达的三维物体检测的混合体素网络

我们提出了一种名叫 Hybrid Voxel Network（HVNet）的新型一阶段统一网络，用于基于点云的自动驾驶 3D 目标检测。在 KITTI 基准测试中，单个 HVNet 实现了最好的 mAP，并具有 31Hz 的实时推理速度。

Feb, 2020

ImVoteNet: 通过图像投票提升点云中的 3D 物体检测

本文提出了一种新的三维检测方法 ImVoteNet，通过将二维图像和三维点云进行融合来实现，验证结果表明，此方法在 SUN RGB-D 数据集上优于先前方法，主要应用于 RGB-D 场景。

Jan, 2020

多视角 3D 物体检测的观察等变性

本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet，通过视点感知和等变性，利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度，并在损失层面进行多视角一致性规范化，通过丰富的几何线索提高性能以优化现有方法。

Mar, 2023

AGO-Net：基于关联引导的 3D 点云物体检测网络

通过领域自适应将感知域中的真实场景特征与概念域中的增强场景特征进行关联，提出了一种新的 3D 检测框架，同时引入基于注意力的重加权模块，无需增加推理成本即可利用网络特征增强能力，在 KITTI 3D 检测基准测试中实现了更高的性能。

Aug, 2022

NeRF-Det：学习几何感知的多视角三维物体检测体积表示

NeRF-Det 是一种新颖的室内 3D 检测方法，利用 RGB 图像作为输入，并通过使用 NeRF 来明确估计 3D 几何，从而提高 3D 检测性能，并通过共享 MLP 巧妙地将检测分支与 NeRF 分支相连接，使 NeRF 在检测中高效适应，并为 3D 检测提供了具有几何感知的体积表示。

Jul, 2023