ACLMar, 2022

AdapLeR: 自适应长度缩减加速推理

TL;DR本文提出了一种基于 salience 方法的计算成本降低技术,具体来说,是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本,在几个不同的分类任务中验证其性能,实现了高达 22 倍的加速。