DSVT:具有旋转集的动态稀疏体素变换器
本文提出了一种基于体素的框架——Voxel R-CNN,通过从体素特征中提取RoI特征,实现与最先进的基于点的模型相当的检测准确度,但计算成本只有一小部分,并在KITTI数据集上实现了更高的检测准确度和实时图像处理速率。
Dec, 2020
本文介绍了Voxel Transformer( VoTr),这是一种用于3D目标检测的新型有效的基于体素的Transformer骨干网络。我们通过引入基于Transformer的体系结构来解决仅使用体素的3D卷积骨干不能有效地捕获大的上下文信息的问题,并且我们提出的VoTr在KITTI议会和Waymo开放数据集上展现了良好的性能。
Sep, 2021
本研究提出了一种名为Voxel Set Transformer(VoxSeT)的基于体素的体系结构,以检测点云中的三维物体,并结合Transformer的高性能和体素模型的效率,有效地管理任意大小的体素化点簇并以线性复杂度并行地处理它们,可用作卷积和基于点的骨干的良好替代方法。
Mar, 2022
本文提出了一种针对3D目标检测的模型Sparse Window Transformer(SWFormer),它能够充分利用点云数据的稀疏性,并通过“桶”技术对不同长度的稀疏窗口有效地进行处理。在Multi-scale特征融合和窗口偏移操作的基础上,作者还引入了新的体素扩散技术。最终,在Waymo Open Dataset上的实验结果表明,SWFormer相比于所有先前的单阶段和两阶段模型,取得了最新的73.36 L2 mAPH表现,同时更加高效。
Oct, 2022
本文提出了一种名为VoxelNext的基于稀疏体素特征的完全稀疏3D目标检测方法,通过少量的推断即可检测和跟踪3D目标,它具有良好的速度-精度折衷,且不需后续的稀疏转密集转换或NMS后处理。实验证明,该方法能够在nuScenes、Waymo和Argoverse2基准上显著提高检测效果。
Mar, 2023
本论文提供了一种新型的点块Transformer用于单级三维检测(PVT-SSD),其使用基于体素的稀疏卷积进行有效的特征编码,并从体素中以便宜的方式获取长距离上下文,同时从点中获取准确的位置并通过引入依赖于输入的查询初始化模块关联这两种不同的表示。进一步地,通过设计Virtual Range Image模块,该方法能够快速找到参考点的邻近点。该方法在几个自动驾驶基准测试中得到了验证,表明其有效性和高效性。
May, 2023
VoxelNextFusion是一种多模态的三维物体检测框架,通过有效地融合稀疏点云和密集图像之间的信息,解决了现有基于体素方法在稀疏和密集特征融合上的问题,从而在KITTI和nuScenes数据集上实现了3D物体检测的显著改进。
Jan, 2024
3D 目标检测中的突出问题是大规模室外场景下对象尺度的变化,需要同时获取远距离和细粒度信息的特征。为了解决这一问题,我们提出了MsSVT++,一种创新的混合尺度稀疏体素变换器,通过分治方法同时捕捉两类信息。使用棋盘采样策略和哈希映射在3D体素空间中进行稀疏的体素采样和聚集操作,以减轻基于窗口的变换器的计算复杂性。同时,引入了中心投票模块,将混合尺度上下文信息丰富的新体素朝着对象中心进行集成,从而提高了精确的对象定位。广泛的实验证明,我们的单阶段检测器在MsSVT++的基础上,对不同的数据集始终表现出优异的性能。
Jan, 2024
信息瓶颈限制了3D物体检测的准确性和可扩展性,因此我们提出了基于Transformer的PVTransformer架构,通过用注意模块替换PointNet池化操作来改善点到体的聚合函数,从而在广泛使用的Waymo Open Dataset上实现了卓越的表现。
May, 2024
提出了一种基于稀疏查询的SparseDet稀疏三维物体检测方法,通过局部多尺度特征聚合模块和全局特征聚合模块,完整地捕捉了上下文信息,提高了代理物体表达能力。实验结果在nuScenes和KITTI上验证了该方法的有效性。
Jun, 2024