Nov, 2023

REST: 基于检索的推测解码

TL;DR通过检索式推断解码(REST),可以加速语言模型的生成,实验证明这种方法在代码或文本生成中可以实现 1.62 倍至 2.36 倍的显著加速。