Jul, 2024
S2D:排序的推测解码,用于更高效部署嵌套大型语言模型
S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models
Parsa Kavehzadeh, Mohammadreza Pourreza, Mojtaba Valipour, Tinashu Zhu, Haoli Bai...
TL;DR部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。