ICMLJul, 2023

预测管道解码:实现精确 LLM 解码的运算延迟平衡

TL;DR本文提出了一种名为 “预测管线解码(PPD)” 的方法,该方法采用额外的计算资源来并行化当前令牌解码期间下一个令牌解码的启动,从而加快了大型语言模型的贪婪解码速度,并降低了解码延迟。