PVTransformer:用于可扩展的三维物体检测的点对体素变换器
提出了一种名为PointVoxel-RCNN(PV-RCNN)的3D物体检测框架,可以使用点云实现准确的物体检测,使用了3D voxel卷积神经网络和基于PointNet的集合抽象相结合的方法深度学习了更具有区分性的点云特征,并使用RoI-grid池化方法编码具有可比性的特征从而实现了更准确的3D检测效果。
Dec, 2019
本文提出了一种针对点云的三维目标检测新方法PV-RCNN,通过点和体素两个方面来深度整合特征学习,采用体素到关键点场景编码和关键点到网格RoI特征抽象两个创新步骤,更高效准确地实现三维目标检测。PV-RCNN++框架通过部分区域划分建议-中心采样和VectorPool池化等两种策略,在更低资源消耗下实现了更优秀的性能,相比PV-RCNN在保持准确率的同时提高了3倍速度,并在大规模Waymo开放数据集上取得了最先进的三维检测性能。
Jan, 2021
本文介绍了Voxel Transformer( VoTr),这是一种用于3D目标检测的新型有效的基于体素的Transformer骨干网络。我们通过引入基于Transformer的体系结构来解决仅使用体素的3D卷积骨干不能有效地捕获大的上下文信息的问题,并且我们提出的VoTr在KITTI议会和Waymo开放数据集上展现了良好的性能。
Sep, 2021
3DETR是一种基于Transformer的端到端目标检测模型,适用于3D点云,相较于现有的检测方法,它需要最少的修改,可以通过将3D领域知识整合进去得到进一步的改进,在ScanNetV2数据集上,相比于VoteNet基线具有9.5%更好的性能,并且适用于其他3D任务。
Sep, 2021
本研究提出了一种名为Voxel Set Transformer(VoxSeT)的基于体素的体系结构,以检测点云中的三维物体,并结合Transformer的高性能和体素模型的效率,有效地管理任意大小的体素化点簇并以线性复杂度并行地处理它们,可用作卷积和基于点的骨干的良好替代方法。
Mar, 2022
本文提出了一种针对3D目标检测的模型Sparse Window Transformer(SWFormer),它能够充分利用点云数据的稀疏性,并通过“桶”技术对不同长度的稀疏窗口有效地进行处理。在Multi-scale特征融合和窗口偏移操作的基础上,作者还引入了新的体素扩散技术。最终,在Waymo Open Dataset上的实验结果表明,SWFormer相比于所有先前的单阶段和两阶段模型,取得了最新的73.36 L2 mAPH表现,同时更加高效。
Oct, 2022
本文介绍了动态稀疏体素变换器(DSVT),它是一个用于室外3D感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云,我们提出了动态稀疏窗口注意力,这将每个窗口中的一系列局部区域根据其稀疏性划分,并以完全并行的方式计算所有区域的特征。在本文中,我们的模型实现了具有广泛3D感知任务的最先进的性能,并且可以轻松通过TensorRT进行实时推理速度(27Hz)的部署。
Jan, 2023
本文提出了一种名为VoxelNext的基于稀疏体素特征的完全稀疏3D目标检测方法,通过少量的推断即可检测和跟踪3D目标,它具有良好的速度-精度折衷,且不需后续的稀疏转密集转换或NMS后处理。实验证明,该方法能够在nuScenes、Waymo和Argoverse2基准上显著提高检测效果。
Mar, 2023
本论文提供了一种新型的点块Transformer用于单级三维检测(PVT-SSD),其使用基于体素的稀疏卷积进行有效的特征编码,并从体素中以便宜的方式获取长距离上下文,同时从点中获取准确的位置并通过引入依赖于输入的查询初始化模块关联这两种不同的表示。进一步地,通过设计Virtual Range Image模块,该方法能够快速找到参考点的邻近点。该方法在几个自动驾驶基准测试中得到了验证,表明其有效性和高效性。
May, 2023
3D 目标检测中的突出问题是大规模室外场景下对象尺度的变化,需要同时获取远距离和细粒度信息的特征。为了解决这一问题,我们提出了MsSVT++,一种创新的混合尺度稀疏体素变换器,通过分治方法同时捕捉两类信息。使用棋盘采样策略和哈希映射在3D体素空间中进行稀疏的体素采样和聚集操作,以减轻基于窗口的变换器的计算复杂性。同时,引入了中心投票模块,将混合尺度上下文信息丰富的新体素朝着对象中心进行集成,从而提高了精确的对象定位。广泛的实验证明,我们的单阶段检测器在MsSVT++的基础上,对不同的数据集始终表现出优异的性能。
Jan, 2024