Feb, 2024

在线级联学习以提高流式推理效率

TL;DR通过在线级联学习,我们提出了一种学习级联的方法来应对大规模语言模型推理的高计算成本问题,通过确定适用的模型以及推迟策略,可以将推理成本降低至 90%,并保持与大规模语言模型相当的准确性,凸显其在流处理中的有效性和适应性。