ACLMay, 2022
Transkimmer: Transformer 学会按层略过
Transkimmer: Transformer Learns to Layer-wise Skim
Yue Guan, Zhengyi Li, Jingwen Leng, Zhouhan Lin, Minyi Guo
TL;DR提出了 Transkimmer architecture,通过添加参数预测器和 reparameterization trick 来实现 Transformer 模型中的 token 跳过,从而提高计算效率,并在 GLUE 基准测试中取得了 10.97x 的平均加速比。