EL-VIT: 使用交互可视化研究视觉 Transformer
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022
我们引入了一种新的培训过程,通过训练促进模型的可解释性,从而解决 Vision Transformers 在解释性方面的不足,并提出了 IA-ViT 模型,通过单头自注意机制提供忠实的解释,有效地应用于几个图像分类任务。
Sep, 2023
本文研究了在医学影像学领域中,Vision Transformer (ViT) 解释方法的表现,证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法,在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。
Apr, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。
Apr, 2022
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本文介绍了 VL-InterpreT,一种可视化工具,通过跟踪关注头中的各种统计信息、可视化跨模态和内模态注意力热力图、以及绘制视觉和语言标记的隐藏表示,来提供多模态转换器中的注意力和隐藏表示的解释。文中使用 KD-VLP 模型根据 Visual Commonsense Reasoning(VCR)和 WebQA 等视觉问答基准展示了 VL-InterpreT 的功能,同时介绍了通过使用该工具学到的有关多模态转换器行为的一些有趣发现。
Mar, 2022
使用 PriViT 算法,通过温和改变 Vision Transformer 结构中的非线性变换,实现了在维持预测准确性的同时,适应安全多方计算(MPC)协议的隐私预测,相比于现有方案,PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。
Oct, 2023
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023