基于车辆运动预测的 3D 物体检测框架融合
本研究提出了一种新颖的 Temporal Fusion 模块(TFM)用于三维物体的检测,它结合了先前时间步骤中的信息以减轻单帧噪声、场景视野阻塞和稀疏性对三维物体检测的影响,实验结果表明,相较于基线方法的帧间检测,我们在 KITTI 目标跟踪数据集上分别实现了 6%,4%和 6%的改进。
Apr, 2021
提出了一种基于单目视觉的 3D 车辆检测和跟踪的在线框架,并利用 3D 车辆坐标信息和深度匹配对数据进行关联,并设计了一个基于 LSTM 的动作学习模块,以进行更准确的长期运动外推。实验结果表明,该跟踪系统可以提供抗干扰性更强的数据关联和跟踪能力,并且在跟踪 30 米内的行驶车辆方面比基于激光雷达的方法表现更好。
Nov, 2018
使用 PointFusion 实现基于图像和点云信息的 3D 对象检测方法,其中 CNN 和 PointNet 网络分别处理图像和点云数据,再由新型融合网络将二者输出结合起来预测多个 3D 框及其置信度,相比现有方法在 KITTI 和 SUN-RGBD 数据集上实现更好的检测结果且无需特定模型调整。
Nov, 2017
本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术,通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云,从而检测运动平台周围的车辆的 3D 边界框参数, 最终验证集准确率达到 87.1%。
May, 2021
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
我们提出了一种基于时间 LiDAR 点云的迟到提早循环特征融合方案,用于 3D 物体检测。我们的主要动机是将物体感知的潜在嵌入融合到 3D 物体检测器的早期阶段。这种特征融合策略使模型能够更好地捕捉具有挑战性的物体的形状和姿态,相比直接从原始点学习。我们的方法以循环的方式进行迟到提早特征融合。这是通过在时间上校准和对齐的稀疏柱状令牌上施加基于窗口的注意力块来实现的。利用俯视图前景柱状分割,我们将模型需要融合到当前帧中的稀疏历史特征数量减少了 10 倍。我们还提出了一种随机长度的 FrameDrop 训练技术,它在推断时可以依据可变帧长度来改进性能而无需重新训练。我们在广泛采用的 Waymo Open Dataset 上评估了我们的方法,并证明在 3D 物体检测方面相对于基线模型有所改进,特别是对于挑战性的大物体类别。
Sep, 2023
TrajectoryFormer 是一种基于点云的 3D 多目标跟踪 (MOT) 框架,通过使用带有时间预测框和当前帧检测框的多个轨迹假设进行轨迹框关联,结合长期目标运动特征和短期目标外观特征来创建每个假设的特征嵌入,引入全局 - 局部交互模块来模拟所有假设的空间关系,从而达到 Waymo 3D MOT 基准测试中的最佳性能。
Jun, 2023
本文提出了一种基于运动引导的序列融合(MSF)方法,通过利用物体的运动连续性来挖掘有用的序列上下文,结合双向特征聚合(BiFA)模块和基于体素采样的点云池化技术,使得数百万个点能够在几毫秒内被处理,实现了比其他多帧检测器更好的效率和领先的准确性,并在 Waymo Open Dataset 的 LEVEL1 和 LEVEL2 测试集上分别取得了 83.12% 和 78.30% 的 mAP。
Mar, 2023
本文提出了一种名为 MMFusion 的多模态 3D 检测框架,以在复杂场景中实现 LiDAR 和图像的准确融合,通过实验证明,该框架不仅优于现有基准,而且尤其适用于在 KITTI 基准上检测骑自行车和行人。
Mar, 2023
本文提出了一种基于稀疏 LSTM 的多帧 3D 对象检测算法,使用 U-Net 风格的稀疏 3D 卷积网络提取每帧 LiDAR 点云的特征,并将这些特征与上一帧的隐藏和记忆特征一起输入到 LSTM 模块中,以预测当前帧中的 3D 对象,同时传递给下一帧的隐藏和记忆特征。实验结果表明,我们的算法在使用更少的内存和每帧计算的情况下优于传统的逐帧方法 7.5% [email protected] 和其他多帧方法 1.2% 。据我们所知,这是在稀疏点云中首次使用 LSTM 进行 3D 对象检测的工作。
Jul, 2020