Apr, 2024

使用混合标记 / 嵌入推测器加速生产 LLM

TL;DR设计和训练新型的推测解码草稿模型,通过在上下文向量和样本标记上条件化草稿预测,可以高效预测高质量的 n-gram,以提高大型语言模型在生产环境中的推理速度。