ToSA:用于高效视觉 Transformer 的令牌选择性注意力
本文提出一种名为 SSA 的新型自注意力策略,能够使 Vision Transformer 模型在单个自注意力层上实现对多种尺度特征的建模,并得到了广泛验证和超越同类模型的结果。
Nov, 2021
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023
本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法,并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充,还可以应用于模型推断中的假相关性发现和提示,以及引导模型预训练加速。
Nov, 2022
本文研究了基于 Transformer 的自注意力(SA)提取序列特征方案,在注意力地图重用方面做了全面的研究,并证明了其在加速推理方面具有显著的优势。实验结果表明,注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。
Jan, 2023
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
本文提出了一种训练无需的 Transformer 架构搜索方法,使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性,从而大大提高了在 ViT 搜索空间的效率,并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。
Mar, 2022
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
SeTformer 是一种新型的 transformer 模型,将 DPSA 纯粹替换为 Self-optimal Transport(SeT),以实现更好的性能和计算效率,它在视觉和语言任务中取得了最先进的结果。
Jan, 2024
通过结合 Self-Attention 与广义卷积(包括标准卷积、空洞卷积和深度卷积),Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过引入两种增强策略实现了长距离连接和扩大的感受野,而在图像分类任务中,Vision Transformer in Convolution (TiC) 利用了 MSA-Conv,在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。
Oct, 2023