Jul, 2023

SkipDecode: 自回归跳过解码与批处理和缓存的高效 LLM 推理

TL;DR通过 SkipDecode 方法在批处理推理和 KV 缓存优化技术的直接兼容性下,实现大语言模型的速度提升 2 倍至 5 倍,同时保持很小的回归,解决了提前终止计算的先前工作中存在的限制。