高效服务扩散模型的近似缓存
使用 Prompt Cache 方法,可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态,以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示,Prompt Cache 显著减少了从第一个标记到输出的延迟,尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍,同时保持输出准确性,无需修改模型参数。
Nov, 2023
通过提示缓存改善大型语言模型的推理效率,专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性,并提出了基于蒸馏的方法来优化嵌入,实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。
Feb, 2024
提出了一种扩展连续缓存模型的方法,通过使用大规模的非参数内存组件,存储过去观察到的所有隐藏激活,并利用近似最近邻搜索和量化算法,高效地存储和搜索数百万的表示,显著提高了预训练语言模型在新分布上的困惑度,并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。
Nov, 2017
ConvoCache 是一个会话缓存系统,通过在过去找到语义上相似的提示并重复使用响应来解决口语聊天机器人中慢且昂贵的生成式 AI 模型的问题,可以在平均延迟为 214ms、使用缓存回答 89% 的提示的情况下应用 90% 的 UniEval 一致性阈值,从而减少成本。
Jun, 2024
Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.
Jun, 2024
通过一种名为 RelayAttention 的算法,该论文提出了一种提高大型语言模型(LLM)服务效率的方法,解决了长系统提示导致的吞吐量 / 延迟瓶颈问题,该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态,从而消除了系统提示的冗余。
Feb, 2024
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
CacheGen 通过将上下文的键值(KV)特征压缩成更紧凑的比特流表示形式,从而减少获取和处理上下文的延迟,并降低带宽使用量。在测试中,相对于处理长上下文的最近方法,CacheGen 在保持类似的大型语言模型任务性能的同时,减少了带宽使用量 3.7-4.3 倍,减少了获取和处理上下文的总延迟 2.7-3 倍。
Oct, 2023
通过自适应 KV 缓存压缩的插拔式方法,我们引入了一种减少大型语言模型(LLM)生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构,我们构建自适应 KV 缓存:针对局部上下文的注意力头强调接触范围短的上下文,针对特殊标记的注意力头中心化的丢弃非特殊标记,只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外,通过轻量级的注意力分析引导自适应 KV 缓存的构建,FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中,FastGen 在 GPU 内存消耗方面显著减少,同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。
Oct, 2023