Nov, 2023

模块化注意力复用技术用于低延迟推理

TL;DR使用 Prompt Cache 方法,可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态,以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示,Prompt Cache 显著减少了从第一个标记到输出的延迟,尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍,同时保持输出准确性,无需修改模型参数。