预测 Token 对高效视觉 Transformer 的影响

May, 2023

预测 Token 对高效视觉 Transformer 的影响

Predicting Token Impact Towards Efficient Vision Transformer

Hong Wang, Su Yang, Xiaoke Huang, Weishan Zhang

TL;DR本文是一项利用特征选择视角看待标记过滤技术，以达到降低自注意力计算量优化模型的研究；研究表明，该方法结合主干网络的优化微调可实现轻量级模型的可以快速部署。

Abstract

token filtering to reduce irrelevant tokens prior to self-attention is a straightforward way to enable efficient vision Transformer. This is the first work to view →

token filtering self-attention feature selection efficient model fine tune

发现论文，激发创造

视觉 Transformer 中的 Token 池化

该研究提出了一种称作 Token Pooling 的新型令牌下采样方法，旨在提高对视觉变换的计算速度，并通过对 softmax 注意力机制的研究，实现了更好的计算速度与精度之间的平衡。

Oct, 2021

高效视觉 Transformer 的多标准令牌融合与一步式注意力

通过多标准令牌融合（MCTF）方法，结合多样性关系和信息损失的最小化，实现了图像分类中速度和准确性的平衡。在多个实验中，MCTF 在不降低性能的情况下，显著减少了计算量并提高了模型的性能。

Mar, 2024

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

动态令牌传递变换器用于语义分割

通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分，通过令牌的分离计算，使用稀疏令牌加速自注意层，并在硬件上保持友好性，构建令牌重建模块以收集和重置分组令牌到序列中的原始位置，这对于预测正确的语义掩码是必要的，我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40％〜60％的 FLOPs，mIoU 的降低在 0.8％以内，并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。

Aug, 2023

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023

SkipViT：使用令牌级别的跳跃连接加速视觉变换

我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量，通过将它们分离并通过不同的低成本计算路径发送，同时在训练吞吐量上获得 13% 以上的提升，并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。

Jan, 2024

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

本研究提出了一种新颖的令牌选择性注意力方法，即 ToSA，它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA，我们能够显著减少计算成本，同时在 ImageNet 分类基准上保持准确性，并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。

Jun, 2024