DeepInteraction: 通过模态交互进行 3D 物体检测

Aug, 2022

DeepInteraction: 通过模态交互进行 3D 物体检测

DeepInteraction: 3D Object Detection via Modality Interaction

Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu...

TL;DR本文提出一种新的模态交互策略，采用 DeepInteraction 结构对多模态特征进行交互和预测，此方法在大规模 nuScenes 数据集上取得比之前所有技术更好的结果，并跻身 nuScenes 目标检测榜首。

Abstract

Existing top-performance 3d object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the →

3d object detectors multi-modal fusion strategy modality-specific useful information modality interaction strategy deepinteraction architecture

发现论文，激发创造

UnionDet：面向实时人物物体互动检测的联合级别检测器

通过深度神经网络和一阶段检测器，实现了对人物与对象的交互行为进行准确和快速检测，并在两个公共数据集上表现出优越性能。

Dec, 2023

mmFUSION: 三维物体检测的多模态融合

提出一种新的中级多模态融合（mmFUSION）方法，通过分别计算每种模态的特征并通过交叉模态和多模态注意机制进行融合，实现了精确的自动驾驶系统中的三维目标检测。

Nov, 2023

自动驾驶中的多模态 3D 物体检测：一项综述

本文介绍了自动驾驶所使用的流行传感器、它们的数据性质以及相应的目标检测算法。还讨论了用于评估多模态 3D 目标检测算法的现有数据集。接着对基于多模态融合的 3D 检测网络进行了回顾，并介绍了它们的融合阶段、融合输入和融合粒度以及这些设计选择如何随着时间和技术而演变。最后讨论了面临的挑战以及可能的解决方案。希望本文能帮助研究人员了解多模态 3D 目标检测领域并进行相关研究。

Jun, 2021

MVX-Net: 基于多模态 VoxcelNet 的三维物体检测

该研究提出了两种简单而有效的融合 RGB 和点云模态的早期融合方法，称为 PointFusion 和 VoxelFusion，并利用 VoxelNet 结构来结合这些模态，从而实现与最先进的多模态算法竞争力相当的表现，其能够在 KITTI 基准测试的五个车顶俯视图和 3D 检测类别中实现前两名的排名。

Apr, 2019

从单幅图像理解 3D 物体交互

本文提出一种基于 Transformer 的模型以实现机器的多物体理解，物体控制及 3D 场景探索，主要方法为预测物体的 3D 位置，物理属性及可访问性，通过自己收集和验证数据集来证明该模型对网络视频，比如第一人称视角视频和室内图像产生较好泛化能力。

May, 2023

面向人 - 物交互检测的姿态感知多层特征网络

本文介绍了一种利用人体姿态提示的多层次关系检测策略，通过深度学习的方法将人体姿态融入到三个语义层面的关系表示中，以解决人体场景中精细化的物体交互识别问题。实验证明本方法在公共基准测试中表现优异。

Sep, 2019

通过在点云上模拟多模态来增强三维物体检测

该研究提出一种新的方法，通过教会单模（LiDAR）三维目标探测器模拟多模（LiDAR 图像）探测器的特征和响应来提高其效率，从而实现在推断时只需要 LiDAR 数据的目标识别，经过实验，这种方法在性能上优于所有 SOTA 的 LiDAR-only 3D 检测器，甚至超越了基线 LiDAR-image 检测器，填补了单模与多模检测器之间的 72％mAP 差距。

Jun, 2022

CrossFusion: 交错跨模态补充用于抵抗噪音的三维物体检测

本研究提出一种更健壮和噪声抗性的跨模态融合策略 - CrossFusion，充分利用设计的跨模式补充策略的相机和 LiDAR 特征，实验表明我们的方法不仅在不引入额外深度估计网络的情况下优于现有方法，还证明我们的模型具有噪声抗性和不需要重新训练，能够应用于特定故障场景，增加了 5.2％的平均精度（mAP）和 2.4％的归一化检测得分（NDS）

Apr, 2023

三维物体检测的多模态物体查询初始化

提出了 EfficientQ3M，一种高效、模块化、多模态的解决方案，用于基于 transformer 的 3D 目标检测模型中的对象查询初始化。通过与 “模态平衡” 的 transformer 解码器相结合，该方法能够在解码器过程中使查询能够访问所有传感器模态，并在竞争激烈的 nuScenes 基准测试中超越现有方法，展示了基于输入的多模态查询初始化的优势，并且比 LiDAR - 摄像机初始化的可用替代方法更高效。该方法可以应用于任何组合的传感器模态作为输入，展示了它的模块化特性。

Oct, 2023

目标中心动作识别的同时检测和交互推理

基于对象为中心的行为识别中的对象检测与交互推理的一阶段端到端行为识别框架，在提取视频特征的基础网络之后，通过三个模块同时进行对象检测和交互推理，既避免了对现成的对象检测器的严重依赖，也减轻了多阶段训练的负担，实验结果在常规、组合性和少量样本的行为识别任务上表现出色。

Apr, 2024