ACLMar, 2022

E-LANG: 基于能量的超级和迅速语言模型联合推理

TL;DR本文提出了一种名为 E-LANG 的有效的动态推理方法,该方法将推理分布在大型准确的 Super 模型和轻量级 Swift 模型之间,可以适用于黑盒预训练模型,并且适用于编码器 - 解码器结构和序列到序列任务。通过在 GLUE、SuperGLUE 和 WMT 上进行一系列实验验证 E-LANG 的性能。在 GLUE 和 SuperGLUE 上,我们的方法与 T5-11B 相比,平均计算速度提高 3.3 倍和 2.9 倍。在 GLUE 上,我们实现了基于 BERT 的 SOTA,并且计算次数减少了 3.2 倍。