这篇论文提出了 Vision transformers(ViTs)在解释方法方面的需求,通过引入概率概念解释器(PACE)来提供可信的事后概念解释,并通过实验表明 PACE 在定义的需求方面优于现有方法。
Jun, 2024
本文研究了在医学影像学领域中,Vision Transformer (ViT) 解释方法的表现,证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法,在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。
Apr, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
EL-VIT 是一种交互式可视化分析系统,可以帮助 ViT 用户理解 ViT 的工作机制,通过四个层次的可视化视图展示 ViT 的模型架构、操作过程和数学运算,以及计算图块之间的余弦相似度。
Jan, 2024
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024
本论文提出了一种基于可解释性的冗余缩减框架 (IA-RED$^2$) 来加速计算机视觉中的 transformer 模型,在丢失不到 0.7% 的精度的同时,最大速度提升了 1.4 倍,并且具有可靠的可解释性。
本文提出了 AdaViT,一个自适应的计算框架,旨在提高视觉变换器的推理效率,而只有 0.8%的准确率下降,并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。
Nov, 2021