Dec, 2023

具有 Pensieve 的有状态大语言模型服务

TL;DR设计了一个用于多轮对话的优化系统 Pensieve,通过缓存先前处理的历史记录来避免重复处理,实现 1.51-1.95 倍的吞吐量提升和 60-75% 的延迟降低。