具有 Pensieve 的有状态大语言模型服务
大规模语言模型的高吞吐量通过批处理大量请求实现,本研究提出了 PagedAttention 算法和 vLLM 系统,用于减少关键值缓存(KV cache)内存的浪费和冗余复制,改善系统的吞吐量和内存利用率。
Sep, 2023
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
通过 AttentionStore,可以显著降低多轮对话中重复计算的开销,提高首个令牌的时间及预填充处理性能,减少端到端推理成本。
Mar, 2024
MeanCache 是一种用于 LLM 的语义缓存,通过识别语义相似的查询来确定缓存是否命中,降低了计算成本,服务提供者负载和环境影响,同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型,不违反隐私。与 GPTCache 相比,MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加,并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升,仍然超过了 GPTCache。
Mar, 2024
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。
Dec, 2023
使用大型语言模型递归生成摘要 / 记忆,从而提高长期记忆能力,进而解决开放领域对话系统中遗忘重要信息的问题。实验证明,该方法可以在长对话环境中生成更加一致的回应。
Aug, 2023
APIServe 是第一个针对 API 增强型 LLM 的推理框架,可以减少由 API 调用引起的 GPU 资源浪费,提高整体服务吞吐量 1.6 倍,并比现有的 LLM 推理系统每秒完成 2 倍更多的请求。
Feb, 2024
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024