PTT:用于高效时序三维物体检测的点轨迹变换器
本文提出了一个端到端的在线三维视频物体检测器,该模型由空间特征编码组件和时空特征聚合组件组成。在空间特征编码组件中,提出了一种新的 Pillar Message Passing Network(PMPNet)模型,用于对离散点云帧进行编码。在时空特征聚合组件中,提出了一种注意力时空变换门控循环神经网络(AST-GRU),它通过注意力机制强调了前景物体并对动态物体进行了对齐。实验结果表明,该模型在大规模nuScenes基准测试中实现了最先进的性能。
Apr, 2020
本文提出了一种名为Temporal-Channel Transformer的新型转换器,用于从Lidar数据中模拟时空域和通道域关系以进行视频物体检测,并以网格体素为基础在nuScenes基准测试中取得最先进的性能。
Nov, 2020
本篇研究文章提出基于点云的3D单目标跟踪的Transformer模块Point-Track-Transformer(PTT),其包含特征嵌入,位置编码和自注意力模块等三个模块,将该模块应用到现有的P2B方法上构建出PTT-Net,并在KITTI数据集上实验表明,该模型较现有方法提升了约10%左右的性能,并实现了实时性能(~40FPS)。
Aug, 2021
本文研究在自动驾驶中基于LiDAR的三维物体检测问题,发现传统的下采样操作可能对信息造成不可避免的损失,提出了一种称作Single-stride Sparse Transformer (SST)的新方法,该方法利用transformers避免了单步架构中接受域不足的问题,有效处理了点云的稀疏性并显著提升了检测性能,验证集上Level-1 AP值达到了83.8,小物体(行人)检测表现尤为突出。
Dec, 2021
本文提出了一种高效的基于点云的3D检测器IA-SSD,利用可学习的面向任务的实例感知下采样策略分层选择感兴趣物体的前景点,进一步估计精确的实例中心,并采用仅编码器架构实现。大规模检测基准测试表明,该模型具有卓越的速度性能,能够以80个以上的速度在KITTI数据集上进行实时检测。
Mar, 2022
本文采用多帧点云视频中的时间信息来探测3D物体。研究者们提出了一种名为GMPNet的格网信息传递网络来编码短期时间信息,并提出了一个名为AST-GRU的基于注意力的时空变换GRU来进一步聚合长期帧。在NuScenes基准测试中,该方法表现优异,且不需要任何额外的手段。
Jul, 2022
本文提出了一种新的三维物体检测结构,该结构可以编码由多个连续扫描获取的LiDAR点云序列,并利用时空上下文实现较大的性能提升。通过短期运动感知体素编码和长期运动指导俯视图特征增强,可以对点云序列进行编码处理,结果显示,与基线方法相比,该模型在性能上显示出明显优越性,在某些三维检测类别方面表现出了最先进的性能。
Dec, 2022
本文提出了一种用于三维时间检测的有意义指导信息 (SUIT) 学习方法,它通过使用预测的物体质心来提取信息丰富但稀疏的特征,然后在稀疏特征之间学习物体中心转换,其在大规模 nuScenes 和 Waymo 数据集上具有良好的表现。
Jul, 2023
通过时间周期性地利用LiDAR数据的柱状表示,TimePillars可以实现在硬件集成效率约束下利用Zenseact Open数据集的多样性和长距离信息,从而实现稳健且高效的目标检测。
Dec, 2023
该研究解决了在自主驾驶中,LiDAR 3D物体检测性能受限于点云数据的固有限制的问题。提出了LiSTM框架,通过引入非学习型运动估计模型生成的动态先验,利用运动引导特征聚合(MGFA)提升了空间-时间特征学习能力。实验表明,该框架在Waymo和nuScenes数据集上实现了更优异的3D检测性能。
Sep, 2024