Oct, 2023

大型语言模型在服务中采用预测解码和批处理的协同效应

TL;DR对于大型语言模型(LLMs)如 GPT,提出了一种新的自适应推测解码策略,通过批处理和推测解码技术提高 GPU 硬件利用率,并在各种 LLM 模型和 GPU 架构上进行了广泛的特征分析,结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。