Mar, 2024

AttentionStore:大型语言模型服务中多轮会话中的经济高效注意力重用

TL;DR通过 AttentionStore,可以显著降低多轮对话中重复计算的开销,提高首个令牌的时间及预填充处理性能,减少端到端推理成本。