提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法,通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能,对于自动驾驶系统具有重要意义。
Feb, 2023
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
本文提出了一种在线多目标跟踪算法,该算法将单目标跟踪和数据关联方法的优点融合在统一框架中,以处理嘈杂的探测和目标之间频繁的交互,并在多目标跟踪基准数据集上展示出较好的性能。
Feb, 2019
4D-Net 是一种使用 3D 点云和 RGB 感知信息,利用动态连接学习和几何约束来进行三维物体检测的方法。在 Waymo Open Dataset 上,相较于现有方法和强基线,其利用运动线索和密集图像信息更能成功检测到远处的物体。
Sep, 2021
本文介绍了一种新的实时多任务网络,包括单目三维物体检测、语义分割和密集深度估计,通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题,并利用硬参数共享方法提高效率,能够同时处理多个任务,尤其是三维物体检测,并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究,我们的网络始终优于各种基准模型。
Mar, 2024
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021
提出了一种使用相机数据和鸟瞰图的多视角三维物体检测的网络结构,通过域适应和可视数据传输解决了当前的关键挑战。
Nov, 2023
本文提出了一个用于室内 3D 物体检测的新型网络框架,能够处理实际场景中可变帧数的输入数据,并通过几何学习器、局部 - 全局特征交互和动态标记策略来增强模型的泛化性能。实验证明,该方法在 ScanNet 数据集上同时实现了良好的泛化能力和高检测准确度。
Oct, 2023
本研究提出了一种基于几何关系的 monocular 三维物体检测方法,通过单独的三维区域建议网络和深度感知卷积层,能够有效地改善基于图像的三维物体检测在自动驾驶领域中的表现。在 KITTI 数据集上,与其他之前的方法相比,M3D-RPN 方法在单眼三维物体检测和俯视图检测任务中都表现出显著的性能提升。
Jul, 2019
本文提出了一种多焦点注意力网络 (Multi-focus Attention Network, MANet) 模型,通过模仿人类对低级感官输入进行空间抽象并同时关注它们的能力,将其分割成若干个部分状态后,利用并行的注意力层关注与任务有关的部分状态进行状态值估计;实验证明,MANet 在体验采样数显著减少的情况下取得了最高分,并相比 Deep Q-network 和单一注意力模型表现更好,同时在多智能体合作任务中,我们的模型比现有最先进模型的学习速度提高了 20%。
Dec, 2017