视觉 Transformer 中的 Token 池化
通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚 Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%,吞吐量提高了 45% 以上,而没有准确性下降。
Oct, 2023
本篇论文提出了一种 PSViT 视觉变换器,通过令每个 transformer 层与其相邻层共享注意力映射和减少空间级别上的特征数量来降低冗余,实现更好的速度和准确性
Aug, 2021
我们提出了一种新方法,通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力,从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符,将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明,即使是我们的简单基线表现也与当前的 SOTA 相当,通过可训练的池化技术,我们可以保持其最高质量,在训练过程中快 1.8 倍,推理时快 4.5 倍,并且在解码器中计算效率高达 13 倍。
Sep, 2020
提出了一种密集注意力的训练无关方法以加速稳定扩散推理的进行,通过关键和值令牌的降采样,在常见尺寸和高分辨率下可以将推理速度提高 2 倍或更多,证明了该方法在平衡高效吞吐量和保真度方面优于之前的方法。
Feb, 2024
本文提出了一种新的 Pooling Network (PoNet),它使用线性复杂度的 token mixing 处理长序列,通过多粒度池化和池化融合来捕获不同级别的上下文信息,并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中,PoNet 显著优于 Transformer,同时实现与最快模型 FNet 相当的准确性,在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究,证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。
Oct, 2021
该研究提出了 ContextPool,一种自适应的注意力机制,用于增强在 transformer 模型中的自注意力机制,实现了更强的性能表现(在语言和图像基准测试中),达到了最新的研究结论,并适用于卷积神经网络进行高效的特征学习。
Jul, 2022
我们通过提出一种通用的池化框架,将卷积网络和视觉变换器的默认池化机制替换为简单的基于注意力的池化机制 SimPool,从而改善了预训练和下游任务的性能,并在所有情况下提供了能够描绘物体边界的注意力分布图。
Sep, 2023
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
本文是一项利用特征选择视角看待标记过滤技术,以达到降低自注意力计算量优化模型的研究;研究表明,该方法结合主干网络的优化微调可实现轻量级模型的可以快速部署。
May, 2023
本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用,提出了四种见解,包括:应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明,本方法能显著加速推理速度,且与不剪枝的结果相比,性能损失仅在 0.3 mAP 以内。
Jun, 2023