Dec, 2023

级联推测草稿以提升 LLM 推理速度

TL;DR利用级联的投机式编码方法,以提高大型语言模型的效率,通过引入垂直级联和水平级联来消除自回归生成和提高草拟中的时间分配的效率,从而进一步提高了 72% 的加速度。