使用 Kcache 的高效 LLM 推断
Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.
Jun, 2024
通过整合一个(几乎不消耗)常量大小的缓存与基于驱逐策略的缓存方法,提出了 LESS,以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点,帮助降低性能差距和提高效率。
Feb, 2024
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准 Transformer 高 26 倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的 Transformer 节省内存技术正交,因此可以轻松将它们与我们的模型集成,进一步提高推理效率。
May, 2024
通过压缩键值缓存并保留关键上下文,提出了一种名为 PyramidInfer 的方法,以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法,在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。
May, 2024
LOOK-M 是一个节省多模态 KV 缓存大小的创新方法,其通过优化文本和图像特征的交互作用,使用新的文本优先方法来压缩 KV 缓存,以及使用 KV 对的合并来缓解图像上下文信息的退化,实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。
Jun, 2024
SnapKV 是一种创新且无需微调的方法,它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小,从而在处理长输入序列时显著降低了计算开销和内存占用,同时保持了与基准模型相当的性能。
Apr, 2024
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。
Dec, 2023
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
Jun, 2024