Jul, 2024

PipeInfer:使用异步流水线推测加速LLM推理

TL;DR在这篇论文中,我们提出了PipeInfer,一种通过连续异步推理和提前推理取消来减少词间延迟和提高系统利用率的管道化推理加速技术,以降低低推测接受率和低带宽互联的影响,并且在单请求场景下具有更好的容错性,相比于标准推测推理,PipeInfer的生成速度提高了2.15倍。