VoxDet: 针对新样本实例检测的体素学习
该研究提出了一种基于 3D 体素特征的中心点检测方法,其中包括一个有效的粗细重建模块,可从单个 2D 图像中检测和重建多个物体的 3D 位置和形状。
Nov, 2021
本文提出了一种适用于单目三维目标检测的新型基于物体的体素表示法,能够有效地组织噪点云在体素网格内,并能够精确定位对象在三维空间中的位置。通过考虑三维物体与相关二维框之间的关系,我们将单目三维目标检测中的置信度机制进行了分解,并在 KITTI 数据集上进行了评估,性能显著优于现有技术。
Apr, 2021
介绍了一种联合训练 3D 目标检测和单目稠密深度重建神经网络的方法,通过 LiDAR 点云和单个 RGB 图像生成物体姿态预测和密集重建深度,其中 LiDAR 点云被转换为一组体素并使用 3D 卷积层提取特征,通过另一个 2D 卷积神经网络提取相应的 RGB 图像特征,并使用这些组合特征来预测密集深度图。
Apr, 2021
本文介绍了 Voxel Transformer (VoTr),这是一种用于 3D 目标检测的新型有效的基于体素的 Transformer 骨干网络。我们通过引入基于 Transformer 的体系结构来解决仅使用体素的 3D 卷积骨干不能有效地捕获大的上下文信息的问题,并且我们提出的 VoTr 在 KITTI 议会和 Waymo 开放数据集上展现了良好的性能。
Sep, 2021
提出了基于 Dense Voxel Fusion 的序列融合方法,该方法对于自主车辆应用中的 3D 物体检测具有重要意义。通过直接使用地面真实 3D 边界框标签进行训练,避免使用嘈杂的、特定于检测器的 2D 预测。DVF 在 KITTI 3D 汽车检测基准测试中排名第三,且不引入额外的可训练参数,也不需要使用立体图像或密集深度标签。此外,在 Waymo 开放数据集上,DVF 显著提高了基于体素的方法在 3D 车辆检测方面的性能。
Mar, 2022
本论文提供了一种新型的点块 Transformer 用于单级三维检测 (PVT-SSD), 其使用基于体素的稀疏卷积进行有效的特征编码,并从体素中以便宜的方式获取长距离上下文,同时从点中获取准确的位置并通过引入依赖于输入的查询初始化模块关联这两种不同的表示。进一步地,通过设计 Virtual Range Image 模块,该方法能够快速找到参考点的邻近点。该方法在几个自动驾驶基准测试中得到了验证,表明其有效性和高效性。
May, 2023
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
通过统一的框架,在有限的基础类别的条件下,本论文旨在同时解决定位和分类新颖目标的两个问题,提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块,通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。
Oct, 2023
VoxelNet 是一种针对点云图像检测的深度网络,可以将点云分割成等间距的三维体素,并通过新引入的体素特征编码层将每组点转换为统一的特征表示,从而生成描述性的体积表示,并连接 RPN 以生成检测。
Nov, 2017
CoDAv2 是一个统一的框架,用于创新性地解决有限基本类别条件下的新型 3D 物体的定位和分类问题,其中使用 3D 几何和 2D 开放词汇语义先验来发现训练期间新型物体的伪标签以及通过 3D 点云和 2D / 文本模态之间的特征对齐来提升分类准确性。
Jun, 2024