H3DNet:使用混合几何基元进行3D目标检测
该论文研究了自动驾驶场景下高精度的3D物体检测问题。其提出了Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将LIDAR点云和RGB图像作为输入,并预测有方向的3D界限框。实验表明,该方法在3D定位和3D检测任务方面的表现优于现有技术约25%和30%,在2D检测中也表现出显著的技术优势。
Nov, 2016
本文提出了一种使用单张图片进行三维目标检测与姿态估计的方法,通过使用深度卷积神经网络来回归相对稳定的三维目标属性,并使用二维边界框提供的几何约束来组合这些估计,从而产生完整的三维边界框。
Dec, 2016
本文提出了一种基于深度点集网络和Hough投票的端到端三维物体检测网络VoteNet,通过纯几何信息在两个大型真实三维扫描数据集ScanNet和SUN RGB-D上实现了最先进的三维检测,且模型设计简单,模型大小小,效率高,并且不依赖于颜色图像。
Apr, 2019
本文提出了一种基于透视点的三维物体检测模型PerspectiveNet,使用局部曼哈顿三维关键点的二维投影作为中间表示,利用透视几何的几何约束来提高检测准确性,在SUN RGB-D数据集上取得了极大的性能提升。
Dec, 2019
利用Transformers中的注意力机制,以所有的点为输入,自动学习每个点对目标检测的贡献,并通过改进的注意力叠加方案将目标特征融合在不同的阶段,实现了最先进的3D目标检测性能。
Apr, 2021
本文提出了一种新的单级三维检测方法HVPR,它将点云的体素特征与点特征有效且高效地集成到一个伪图像的混合三维表示中,从而实现了三维对象的定位。同时,我们提出了一种Attentive Multi-scale Feature Module(AMFM),用于考虑点云的稀疏和不规则分布,以提取具有尺度感知的特征,并在KITTI数据集上验证了我们方法的有效性和效率。
Apr, 2021
本研究提出了一个名为Point2Seq的简单而有效的框架,用于从点云中检测3D物体。与以往的方法不同,我们明确地建立了3D物体属性之间的依赖关系,将3D物体视为单词序列,并以自回归方式从3D场景中解码单词,进而得到所有3D物体的序列,并最终通过基于相似性的序列匹配自动分配到相应的真实值。
Mar, 2022
提出了一个名为Omni3D的大型测试数据集,其中包含234k个图像,涵盖了98个类别和300万个实例。引入了Cube R-CNN模型,能够更好地检测和识别3D场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022
该论文研究了如何训练一个来自多个数据集的统一 3D 检测器,提出了一种名为 Uni3D 的方法来解决数据级别和分类学级别的差异,证明了该方法的有效性并对进一步的 3D 泛化研究具有启发意义。
Mar, 2023