DeepInteraction: 通过模态交互进行 3D 物体检测
提出一种新的中级多模态融合(mmFUSION)方法,通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合,实现了精确的自动驾驶系统中的三维目标检测。
Nov, 2023
本文介绍了自动驾驶所使用的流行传感器、它们的数据性质以及相应的目标检测算法。还讨论了用于评估多模态 3D 目标检测算法的现有数据集。接着对基于多模态融合的 3D 检测网络进行了回顾,并介绍了它们的融合阶段、融合输入和融合粒度以及这些设计选择如何随着时间和技术而演变。最后讨论了面临的挑战以及可能的解决方案。希望本文能帮助研究人员了解多模态 3D 目标检测领域并进行相关研究。
Jun, 2021
该研究提出了两种简单而有效的融合 RGB 和点云模态的早期融合方法,称为 PointFusion 和 VoxelFusion,并利用 VoxelNet 结构来结合这些模态,从而实现与最先进的多模态算法竞争力相当的表现,其能够在 KITTI 基准测试的五个车顶俯视图和 3D 检测类别中实现前两名的排名。
Apr, 2019
本文提出一种基于 Transformer 的模型以实现机器的多物体理解,物体控制及 3D 场景探索,主要方法为预测物体的 3D 位置,物理属性及可访问性,通过自己收集和验证数据集来证明该模型对网络视频,比如第一人称视角视频和室内图像产生较好泛化能力。
May, 2023
本文介绍了一种利用人体姿态提示的多层次关系检测策略,通过深度学习的方法将人体姿态融入到三个语义层面的关系表示中,以解决人体场景中精细化的物体交互识别问题。实验证明本方法在公共基准测试中表现优异。
Sep, 2019
该研究提出一种新的方法,通过教会单模(LiDAR)三维目标探测器模拟多模(LiDAR 图像)探测器的特征和响应来提高其效率,从而实现在推断时只需要 LiDAR 数据的目标识别,经过实验,这种方法在性能上优于所有 SOTA 的 LiDAR-only 3D 检测器,甚至超越了基线 LiDAR-image 检测器,填补了单模与多模检测器之间的 72%mAP 差距。
Jun, 2022
本研究提出一种更健壮和噪声抗性的跨模态融合策略 - CrossFusion,充分利用设计的跨模式补充策略的相机和 LiDAR 特征,实验表明我们的方法不仅在不引入额外深度估计网络的情况下优于现有方法,还证明我们的模型具有噪声抗性和不需要重新训练,能够应用于特定故障场景,增加了 5.2%的平均精度(mAP)和 2.4%的归一化检测得分(NDS)
Apr, 2023
提出了 EfficientQ3M,一种高效、模块化、多模态的解决方案,用于基于 transformer 的 3D 目标检测模型中的对象查询初始化。通过与 “模态平衡” 的 transformer 解码器相结合,该方法能够在解码器过程中使查询能够访问所有传感器模态,并在竞争激烈的 nuScenes 基准测试中超越现有方法,展示了基于输入的多模态查询初始化的优势,并且比 LiDAR - 摄像机初始化的可用替代方法更高效。该方法可以应用于任何组合的传感器模态作为输入,展示了它的模块化特性。
Oct, 2023
基于对象为中心的行为识别中的对象检测与交互推理的一阶段端到端行为识别框架,在提取视频特征的基础网络之后,通过三个模块同时进行对象检测和交互推理,既避免了对现成的对象检测器的严重依赖,也减轻了多阶段训练的负担,实验结果在常规、组合性和少量样本的行为识别任务上表现出色。
Apr, 2024