词元融合：填补词元剪枝与词元合并之间的差距

Dec, 2023

词元融合：填补词元剪枝与词元合并之间的差距

Token Fusion: Bridging the Gap between Token Pruning and Token Merging

Minchul Kim, Shangqian Gao, Yen-Chang Hsu, Yilin Shen, Hongxia Jin

TL;DR通过融合 Token Fusion 方法来提高 Vision Transformers 的计算效率和模型准确性，使其适用于资源受限的边缘设备，并在分类和图像生成任务中建立新的基准。

Abstract

vision transformers (ViTs) have emerged as powerful backbones in computer vision, outperforming many traditional CNNs. However, their computational overhead, largely attributed to the self-attention mechanism, makes deployment on →

vision transformers token fusion computational efficiency model accuracy resource-constrained edge devices

发现论文，激发创造

PPT：高效视觉 Transformer 的令牌修剪和池化

通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术，我们提出了一种名为令牌剪枝和汇聚 Transformer（PPT）的新型加速框架，通过启发式方法自适应地应对两种不同层次的冗余，有效降低模型复杂性同时保持其预测准确性。例如，PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%，吞吐量提高了 45% 以上，而没有准确性下降。

Oct, 2023

高效视觉 Transformer 的多标准令牌融合与一步式注意力

通过多标准令牌融合（MCTF）方法，结合多样性关系和信息损失的最小化，实现了图像分类中速度和准确性的平衡。在多个实验中，MCTF 在不降低性能的情况下，显著减少了计算量并提高了模型的性能。

Mar, 2024

多尺度和令牌合并：让您的 ViT 更高效

本文提出一种新的 token pruning 方法，通过筛选关键词实现计算效率和模型效果的折衷，实验结果表明，该方法可显著降低计算成本，同时仅导致 0.1% 的 DeiT-S 识别精度下降。

Jun, 2023

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

视觉 Transformer 的多模态 Token 融合

本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

Token Merging：让您的 ViT 更快

Token Merging（ToMe）是一种简单的方法，可以提高现有 ViT 模型的吞吐量，无需进行训练。ToMe 逐渐合并转换器中相似的标记，使用一种通用且轻量级的匹配算法，可以像修剪一样快速，并具有更高的准确性。ToMe 的准确性和速度在图像、视频和音频方面的操作都具有竞争力。

Oct, 2022

重访目标检测和实例分割的 Token 剪枝

本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用，提出了四种见解，包括：应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明，本方法能显著加速推理速度，且与不剪枝的结果相比，性能损失仅在 0.3 mAP 以内。

Jun, 2023

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

基于学习的阈值令牌合并和修剪用于视觉 Transformer

这篇论文介绍了一种名为 LTMP 的学习阈值符号合并和修剪方法，它通过动态确定合并和修剪的符号，以降低计算视觉变换器所需的输入符号数量，实现了在降低速率的同时保持最先进的准确性，在仅一个微调阶段的情况下比先前的方法快一个数量级以上。

Jul, 2023

基于标记合并的转换器和状态空间模型的高效时间序列处理

在时间序列分析中，我们首次探讨了令牌合并在时间序列变换器和状态空间模型中的应用，通过引入局部合并算法，我们能够在长序列上有效实现令牌合并，从而在多个模型和数据集上获得显著的计算效益而对准确性影响最小。

May, 2024