Aug, 2021

开放领域问答中分离式 Transformer 的可伸缩推理

TL;DR本研究提出一种将 transformer MRC 模型解耦为输入组件和交叉组件的方法,以减少计算成本和延迟,通过知识蒸馏和学习表示压缩层来保持解耦 transformer 的准确性,并可使在线 MRC 的计算成本和延迟降低 30%-40%,与标准 transformer 相比,只有 1.2 个 F1 分数下降。