预测 Token 对高效视觉 Transformer 的影响
该研究提出了一种称作 Token Pooling 的新型令牌下采样方法,旨在提高对视觉变换的计算速度,并通过对 softmax 注意力机制的研究,实现了更好的计算速度与精度之间的平衡。
Oct, 2021
通过多标准令牌融合(MCTF)方法,结合多样性关系和信息损失的最小化,实现了图像分类中速度和准确性的平衡。在多个实验中,MCTF 在不降低性能的情况下,显著减少了计算量并提高了模型的性能。
Mar, 2024
提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。
Jun, 2021
提出了一种基于 token dropping 方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现,计算代价几乎为零。
Mar, 2022
通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分,通过令牌的分离计算,使用稀疏令牌加速自注意层,并在硬件上保持友好性,构建令牌重建模块以收集和重置分组令牌到序列中的原始位置,这对于预测正确的语义掩码是必要的,我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40%〜60%的 FLOPs,mIoU 的降低在 0.8%以内,并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。
Aug, 2023
通过结合令牌修剪和令牌合并的策略,我们在基于 Transformer 模型的基础上提出了改进的方法,既提高了模型的性能,又降低了计算需求。在各种数据集上的实验证明,与基准模型相比,我们的方法在准确度上提升了 5% p,F1 得分提升了 5.6% p。此外,我们成功减少了内存成本到 0.61 倍,并实现了 1.64 倍的加速。
Jun, 2024
本文研究了 BERT 的注意力机制,探究了两个问题:如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制,并发现 BERT 的早期层对文本分类任务的关注度更高,其注意力和可以用于过滤给定序列的令牌,一定程度上减少了输入长度同时保持良好的测试准确性。
Mar, 2023
我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量,通过将它们分离并通过不同的低成本计算路径发送,同时在训练吞吐量上获得 13% 以上的提升,并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。
Jan, 2024
本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用,提出了四种见解,包括:应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明,本方法能显著加速推理速度,且与不剪枝的结果相比,性能损失仅在 0.3 mAP 以内。
Jun, 2023
本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。
Jun, 2024