基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

Dec, 2023

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

Explainable Multi-Camera 3D Object Detection with Transformer-Based Saliency Maps

Till Beemelmanns, Wassim Zahr, Lutz Eckstein

TL;DR我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Abstract

vision transformers (ViTs) have achieved state-of-the-art results on various computer vision tasks, including 3d object detection. However, their end-to-end implementation also makes ViTs less explainable, which

vision transformers saliency maps 3d object detection explainability autonomous driving

发现论文，激发创造

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

面向医学成像的视觉 Transformer 解释评价

本文研究了在医学影像学领域中，Vision Transformer (ViT) 解释方法的表现，证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法，在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。

Apr, 2023

FusionViT: 基于 LiDAR - 相机视觉变换的层次化 3D 物体检测

通过 FusionViT 模型，在 KITTI 和 Waymo Open 数据集上进行了大量实验，实现了最先进的性能，并且优于仅依赖于相机图像或 Lidar 点云以及最新的多模态图像 - 点云深度融合方法。

Nov, 2023

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

RangeViT：用于自动驾驶 3D 语义分割的视觉 Transformer

本文应用 Vision Transformers 和卷积解码器改进了基于投影的 3D 语义分割方法以获得更好的结果，并在 nuScenes 和 SemanticKITTI 数据集上超过了现有的投影方法。

Jan, 2023

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

去噪视觉变换器

我们提出了一种噪声模型和去噪方法来解决 Vision Transformers 中存在的网格伪影问题，该方法能有效改善模型在语义和几何任务中的性能。

Jan, 2024

ViT-ReciproCAM: 用于视觉转换器的无梯度与无注意力的视觉解释

本文提出了一种新颖的方法来解决 Vision Transformers (ViT) 在计算机视觉任务中对图像分类和目标检测等方面表现出的优异性能的预测过程理解和调试预测错误的挑战。我们提出了一种名为 ViT-ReciproCAM 的梯度无关的视觉解释方法，该方法不需要关注矩阵和梯度信息，并通过利用激活的令牌和网络预测之间的相关性来生成更局部化的显著性地图，从而在 ADCC 指标上优于现有最先进的相关性方法。实验证明了 ViT-ReciproCAM 方法的有效性，展示了其在理解和调试 ViT 模型方面的潜力，并提供了一种高效易实现的生成视觉解释的替代方法。

Oct, 2023