高效服务扩散模型的近似缓存

Dec, 2023

Approximate Caching for Efficiently Serving Diffusion Models

Shubham Agarwal, Subrata Mitra, Sarthak Chakraborty, Srikrishna Karanam, Koyel Mukherjee...

TL;DR该研究论文介绍了一种名为近似缓存的技术，通过重用在先前图像生成中创建的中间噪声状态来减少迭代去噪步骤，从而降低基于提示的图像生成的计算和延迟，提供高品质图像生成的最优化解决方案。

Abstract

text-to-image generation using diffusion models has seen explosive popularity owing to their ability in producing high quality images adhe

text-to-image generation diffusion models approximate-caching image generation nirvana

发现论文，激发创造

模块化注意力复用技术用于低延迟推理

使用 Prompt Cache 方法，可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态，以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示，Prompt Cache 显著减少了从第一个标记到输出的延迟，尤其对于基于文档的问答和推荐等较长的提示。改进范围从基于 GPU 的推理中的 8 倍到基于 CPU 的推理中的 60 倍，同时保持输出准确性，无需修改模型参数。

Nov, 2023

通过嵌入相似性实现高效的提示缓存

通过提示缓存改善大型语言模型的推理效率，专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性，并提出了基于蒸馏的方法来优化嵌入，实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。

Feb, 2024

开放词汇在线语言建模的无限缓存模型

提出了一种扩展连续缓存模型的方法，通过使用大规模的非参数内存组件，存储过去观察到的所有隐藏激活，并利用近似最近邻搜索和量化算法，高效地存储和搜索数百万的表示，显著提高了预训练语言模型在新分布上的困惑度，并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。

Nov, 2017

ConvoCache：智能重用聊天机器人回复

ConvoCache 是一个会话缓存系统，通过在过去找到语义上相似的提示并重复使用响应来解决口语聊天机器人中慢且昂贵的生成式 AI 模型的问题，可以在平均延迟为 214ms、使用缓存回答 89% 的提示的情况下应用 90% 的 UniEval 一致性阈值，从而减少成本。

Jun, 2024

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

大语言模型快速分布式推理服务

FastServe 是一种分布式推理服务系统，利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间，并采用 GPU 内存管理机制，与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。

May, 2023

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

CacheGen：面向语言模型应用的快速上下文加载

CacheGen 通过将上下文的键值（KV）特征压缩成更紧凑的比特流表示形式，从而减少获取和处理上下文的延迟，并降低带宽使用量。在测试中，相对于处理长上下文的最近方法，CacheGen 在保持类似的大型语言模型任务性能的同时，减少了带宽使用量 3.7-4.3 倍，减少了获取和处理上下文的总延迟 2.7-3 倍。

Oct, 2023

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023