Dec, 2023

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

TL;DR我们提出了一种新颖的方法,用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力,比基于梯度的方法更高效。通过大量的扰动测试,我们在 nuScenes 数据集上评估了所提出的方法,并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI,通过更透明地了解 AI 模型的内部工作,可以提高人们对 AI 应用的信任。