Jan, 2022

语言理解用的可调节延迟的 Transformer 编码器

TL;DR本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构,包括 Attention Context Contribution(ACC)度量和新的策略,可用于 BERTbase 模型的微调,并且使得推论延迟提高了 4.8 倍,并且精度下降少于 0.75%。