ACLMay, 2022

Transkimmer: Transformer 学会按层略过

TL;DR提出了 Transkimmer architecture,通过添加参数预测器和 reparameterization trick 来实现 Transformer 模型中的 token 跳过,从而提高计算效率,并在 GLUE 基准测试中取得了 10.97x 的平均加速比。