B-Cos 对齐的 Transformer 学习可解释的人类特征
本文提出了使用 B-cos 转换来增加深度神经网络可解释性的新方向,并设计了用于优化和权重对齐的转换,可以轻松地与计算机视觉领域中最先进的模型相融合。
Jun, 2023
提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
本文研究了在医学影像学领域中,Vision Transformer (ViT) 解释方法的表现,证明了 Transformer 的逐层相关传播法胜过本地可解释的模型不可知性解释和注意力可视化方法,在准确和可靠地表示 ViT 已经学到了什么方面提供了更好的表现。
Apr, 2023
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
该论文通过展示如何使用双流 Transformer 和联合旋转不变性和对抗优化过程,实现了在 Brain-Score 2022 竞赛中排名第二,并在所有视觉类别中平均排名第一的第一个位置,并且在 V4 区域的可解释方差方面取得了最高的成绩。同时,该模型在 V4,IT 和 Behavior 方面的解释方差也优于 ResNet50 模型。此外,通过几项额外实验,论文支持了一个 “所有道路通往罗马” 的论点,这是通过联合优化规则来实现的,即使对于像 Vision Transformers 这样的非生物学模型。
Mar, 2022
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021