EL-VIT: 使用交互可视化研究视觉 Transformer

Jan, 2024

EL-VIT: 使用交互可视化研究视觉 Transformer

EL-VIT: Probing Vision Transformer with Interactive Visualization

Hong Zhou, Rui Zhang, Peifeng Lai, Chaoran Guo, Yong Wang...

TL;DREL-VIT 是一种交互式可视化分析系统，可以帮助 ViT 用户理解 ViT 的工作机制，通过四个层次的可视化视图展示 ViT 的模型架构、操作过程和数学运算，以及计算图块之间的余弦相似度。

Abstract

Nowadays, vision transformer (ViT) is widely utilized in various computer vision tasks, owing to its unique self-attention mechanism. However, the model architecture of ViT is complex and often challenging to comprehend, leading to a steep learning curve. ViT developers and users frequ

vision transformer el-vit visualization system interactive visual analytics model architecture

发现论文，激发创造

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

可解释感知视觉变换器

我们引入了一种新的培训过程，通过训练促进模型的可解释性，从而解决 Vision Transformers 在解释性方面的不足，并提出了 IA-ViT 模型，通过单头自注意机制提供忠实的解释，有效地应用于几个图像分类任务。

Sep, 2023

面向医学成像的视觉 Transformer 解释评价

本文研究了在医学影像学领域中，Vision Transformer (ViT) 解释方法的表现，证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法，在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。

Apr, 2023

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

VL-InterpreT：一种用于解释视觉语言变换器的交互式可视化工具

本文介绍了 VL-InterpreT，一种可视化工具，通过跟踪关注头中的各种统计信息、可视化跨模态和内模态注意力热力图、以及绘制视觉和语言标记的隐藏表示，来提供多模态转换器中的注意力和隐藏表示的解释。文中使用 KD-VLP 模型根据 Visual Commonsense Reasoning（VCR）和 WebQA 等视觉问答基准展示了 VL-InterpreT 的功能，同时介绍了通过使用该工具学到的有关多模态转换器行为的一些有趣发现。

Mar, 2022

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023