体素追踪:探索体素表示用于三维点云目标追踪
VoxelNet是一种针对点云图像检测的深度网络,可以将点云分割成等间距的三维体素,并通过新引入的体素特征编码层将每组点转换为统一的特征表示,从而生成描述性的体积表示,并连接RPN以生成检测。
Nov, 2017
本研究提出了一种基于SimTrack的3D多目标跟踪系统,旨在简化手工制作的跟踪范例,通过使用端到端可训练的模型从原始点云中进行联合检测和跟踪,无需启发式匹配步骤,将跟踪对象的关联,新生对象的检测和死亡轨迹的消除集成为一个统一的模型。
Aug, 2021
本文提出了一种Siamese Voxel-to-BEV Tracker,通过Siamese形状感知特征学习网络和体素到BEV目标定位网络大幅提高了稀疏点云中的3D物体追踪性能,并在KITTI和nuScenes数据集上得到了显著的性能优化。
Nov, 2021
本文提出了一种基于运动中心范例的两阶段跟踪方法M^2-Track来解决传统外观匹配法在LiDAR点云跟踪中的不足,并在KITTI、NuScenes和Waymo Open Dataset三个数据集上表现出显著的精度提升(分别为8%、17%和22%),验证了该方法的有效性和前景。
Mar, 2022
提出了一种基于点密度感知的体素网络(PDV)方法,通过使用核密度估计和具有点密度位置编码的自注意力,通过聚合体素特征来解决LiDAR的点密度变化对3D物体检测精度的影响。实验结果表明,PDV在Waymo开放数据集上优于所有最先进的方法,在KITTI数据集上取得了竞争性的结果。
Mar, 2022
本文提出了一种名为VoxelNext的基于稀疏体素特征的完全稀疏3D目标检测方法,通过少量的推断即可检测和跟踪3D目标,它具有良好的速度-精度折衷,且不需后续的稀疏转密集转换或NMS后处理。实验证明,该方法能够在nuScenes、Waymo和Argoverse2基准上显著提高检测效果。
Mar, 2023
在本文中,我们介绍了BEVTrack,一个简单但强大的三维单目标跟踪基线框架。通过将连续的点云转换成常见的鸟瞰图表示,BEVTrack通过简单的逐元素操作和卷积层,天然地编码了空间邻近性并熟练地捕捉运动线索,同时直接学习目标的运动分布,而无需假定固定的拉普拉斯或高斯。BEVTrack在KITTI和NuScenes数据集上取得了最先进的性能,并且推理速度高达122帧/秒。
Sep, 2023
通过EasyTrack提出一种新的一次性转换器3D SOT范例,利用点云跟踪特征预训练模块、统一的3D跟踪特征学习和融合网络,以及在密集鸟瞰特征空间中构建的目标定位网络,显著提高了KITTI、NuScenes和Waymo的性能,并具有较低的参数和高帧率。
Apr, 2024
3D单物体跟踪研究中,基于外观匹配的方法受制于不完整、无纹理和语义缺失的LiDAR点云,而运动范式则通过利用运动线索而非外观匹配进行跟踪,且其复杂的多阶段处理和分割模块限制了其应用。本论文首先对运动范式进行深入研究,证明了直接从连续帧的点云中推测目标相对运动是可行的,并且连续点云之间的精细信息比较有助于目标运动建模。因此,我们提出了一种新的跟踪框架P2P,通过对连续点云进行部分运动建模,并介绍了P2P-point和P2P-voxel模型,分别通过基于点和基于体素的表示来实现隐式和显式的部分运动建模。在KITTI、NuScenes和Waymo Open Dataset上,P2P-voxel不添加额外功能,达到新的最先进水平(分别为约89%、72%和63%的精度)。此外,在相同的基于点的表示下,P2P-point在KITTI和NuScenes上的性能超过了之前的运动跟踪器M^2Track的3.3%和6.7%,而在单个RTX3090 GPU上以相当高的速度运行(107帧/秒)。源代码和预训练模型可在https://github.com/haooozi/P2P上获得。
Jul, 2024