Keyformer: 通过关键词令牌选择减少键值缓存以提高生成推理的效率
Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.
Jun, 2024
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准 Transformer 高 26 倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的 Transformer 节省内存技术正交,因此可以轻松将它们与我们的模型集成,进一步提高推理效率。
May, 2024
我们提出了一种简单的模型 Kformer,它通过在 Transformer 的 FFN 层中注入来自 PTMs 和外部知识的信息,利用了 PTMs 存储的知识和内部的数量知识神经元。实验结果表明,在常识推理和医学问答等知识密集型任务中,Kformer 的表现优于其他知识注入技术,如连接或基于注意力的注入。
Jan, 2022
Treeformer 是一种基于 CKY 算法和 Transformer 的体系结构,可以用于构建短语和句子的分层编码,相较于传统的基于 token 编码的 Transformer,能在机器翻译、文本摘要和自然语言理解等任务上带来显著改进。
Jul, 2022
通过整合一个(几乎不消耗)常量大小的缓存与基于驱逐策略的缓存方法,提出了 LESS,以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点,帮助降低性能差距和提高效率。
Feb, 2024
在这项工作中,我们提出了一种高效的并行化方案 KV-Runahead,旨在加速大型语言模型的前置阶段。通过利用键值缓存(KV-cache),KV-Runahead 通过协调多个进程填充 KV-cache 以最小化时间到达第一个标记(TTFT)。我们进一步提出上下文级负载平衡来处理不均匀的 KV-cache 生成,并优化 TTFT。与现有的并行化方案相比,KV-Runahead 在 Llama 7B 和 Falcon 7B 上分别提供了 1.4 倍和 1.6 倍的加速。
May, 2024
为了降低长上下文 Transformer 模型的成本并解决效率挑战,本研究提出了一种并行编程框架,用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战,并识别出减少 1M 上下文推断成本的可能方向。
May, 2024
通过压缩键值缓存并保留关键上下文,提出了一种名为 PyramidInfer 的方法,以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法,在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。
May, 2024