KDDJul, 2021

Transformer 模型的学习型 Token 裁剪

TL;DR本文提出了一种新的学习 Token 修剪 (LTP) 方法,旨在优化 transformer 模型输入序列的推理成本,通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪,从而获得 2.5% 的性能提升和 FLOPs 降低,进而显著提高了处理器和 GPU 的吞吐量,并展示了更好的鲁棒性能。