具有 Pensieve 的有状态大语言模型服务

Dec, 2023

具有 Pensieve 的有状态大语言模型服务

Stateful Large Language Model Serving with Pensieve

Lingfan Yu, Jinyang Li

TL;DR设计了一个用于多轮对话的优化系统 Pensieve，通过缓存先前处理的历史记录来避免重复处理，实现 1.51-1.95 倍的吞吐量提升和 60-75% 的延迟降低。

Abstract

large language models (LLMs) have recently experienced great success, as evident in the widespread popularity of ChatGPT. Existing llm serving systems are stateless across requests. Consequently, when LLMs are us

large language models multi-turn conversations llm serving systems pensieve caching strategy

发现论文，激发创造

大规模语言模型服务的高效内存管理与 PagedAttention

大规模语言模型的高吞吐量通过批处理大量请求实现，本研究提出了 PagedAttention 算法和 vLLM 系统，用于减少关键值缓存（KV cache）内存的浪费和冗余复制，改善系统的吞吐量和内存利用率。

Sep, 2023

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用

通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。

Mar, 2024

大语言模型的隐私感知语义缓存

MeanCache 是一种用于 LLM 的语义缓存，通过识别语义相似的查询来确定缓存是否命中，降低了计算成本，服务提供者负载和环境影响，同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型，不违反隐私。与 GPTCache 相比，MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加，并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升，仍然超过了 GPTCache。

Mar, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

在大型语言模型中，递归总结实现了长期的对话记忆

使用大型语言模型递归生成摘要 / 记忆，从而提高长期记忆能力，进而解决开放领域对话系统中遗忘重要信息的问题。实验证明，该方法可以在长对话环境中生成更加一致的回应。

Aug, 2023

APIServe：大型语言模型推理的高效 API 支持

APIServe 是第一个针对 API 增强型 LLM 的推理框架，可以减少由 API 调用引起的 GPU 资源浪费，提高整体服务吞吐量 1.6 倍，并比现有的 LLM 推理系统每秒完成 2 倍更多的请求。

Feb, 2024

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024