May, 2024

KV-Runahead: 并行键值缓存生成的可扩展因果LLM推断

TL;DR在这项工作中,我们提出了一种高效的并行化方案KV-Runahead,旨在加速大型语言模型的前置阶段。通过利用键值缓存(KV-cache),KV-Runahead通过协调多个进程填充KV-cache以最小化时间到达第一个标记(TTFT)。我们进一步提出上下文级负载平衡来处理不均匀的KV-cache生成,并优化TTFT。与现有的并行化方案相比,KV-Runahead在Llama 7B和Falcon 7B上分别提供了1.4倍和1.6倍的加速。