利用多尺度令牌聚合的深层自注意力机制
本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT),并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。
Mar, 2022
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
本文提出一种新的 token pruning 方法,通过筛选关键词实现计算效率和模型效果的折衷,实验结果表明,该方法可显著降低计算成本,同时仅导致 0.1% 的 DeiT-S 识别精度下降。
Jun, 2023
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法,并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充,还可以应用于模型推断中的假相关性发现和提示,以及引导模型预训练加速。
Nov, 2022
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。
Jun, 2024
本文介绍了一种名为 Focal Transformer 的新型视觉 Transformer 模型,采用了一种称为 focal self-attention 的新机制,有效地解决上述算法在高分辨率视觉任务方面的困难之处,并在各项视觉任务的公共基准测试中创造了新的 SoTA。
Jul, 2021
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023