Jul, 2024

S2D:排序的推测解码,用于更高效部署嵌套大型语言模型

TL;DR部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。