May, 2024

硬件感知并行提示解码用于 LLM 推理的内存高效加速

TL;DR提出一种新颖的并行提示解码方法,仅需 $0.0002$% 的可训练参数,在 16 小时内可在单个 A100-40GB GPU 上进行高效训练,大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。