使用额外的统计信息检查 Transformer 模型的可解释性
本文研究了在医学影像学领域中,Vision Transformer (ViT) 解释方法的表现,证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法,在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。
Apr, 2023
本研究提出了一种基于 Deep Taylor Decomposition 原则的计算 Transformer 网络相关性的方法,通过注意力层和跳跃连接进行传播,并通过基于图像分类和文本分类问题的测试表明其在解释性方面优于现有方法。
Dec, 2020
通过引入一种新的架构,即 B-cos Vision Transformer,以提高可解释性,本文证明了 B-cos Swin Transformer 在医学相关任务中超越了 Vision Transformers,并在两个公共数据集上提高了 F1 分数高达 4.7%。
Jan, 2024
我们提出了一种新颖的视觉分析框架,用于支持基于 transformer 的生成网络的分析,通过交互式可视化提供直观的模型概览,并通过三个详细案例研究展示了其可行性和实用性。
Nov, 2023
本研究探讨了用于视觉 Transformer 的不同解释性方法,并提出了根据其动机、结构和应用场景进行分类的分类法。此外,还提供了用于比较解释结果的综合评价标准,以及解释性工具和框架。最后,本文突出了可以增强视觉 Transformer 可解释性的重要但未被开发的方面,并提出了未来需进一步研究的方向。
Nov, 2023
我们引入了一种新的培训过程,通过训练促进模型的可解释性,从而解决 Vision Transformers 在解释性方面的不足,并提出了 IA-ViT 模型,通过单头自注意机制提供忠实的解释,有效地应用于几个图像分类任务。
Sep, 2023
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024
我们提出了一种新颖的方法,用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力,比基于梯度的方法更高效。通过大量的扰动测试,我们在 nuScenes 数据集上评估了所提出的方法,并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI,通过更透明地了解 AI 模型的内部工作,可以提高人们对 AI 应用的信任。
Dec, 2023
在这项研究中,我们提出了一种用于 Vision Transformer 的注意力的统计测试方法,通过选择性推理的框架,我们量化了注意力的统计显著性,并将其用于脑图像诊断的应用,以可靠的定量证据指示 Vision Transformer 的决策过程。
Jan, 2024
提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。
Sep, 2023