May, 2023

响应长度感知与序列调度:基于 LLM 增强的 LLM 推断管道

TL;DR本文提出了一种高效的大语言模型推理流水线方法,该方法利用大语言模型的潜力来准确感知和预测响应长度,并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理,从而实现了 86%的推理吞吐量的提高,同时不影响其效果。该方法是现有工具包(如 FlashAttention,Quantization)中的一个宝贵补充。