Keyformer: 通过关键词令牌选择减少键值缓存以提高生成推理的效率

Mar, 2024

Keyformer: 通过关键词令牌选择减少键值缓存以提高生成推理的效率

Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference

Muhammad Adnan, Akhil Arunkumar, Gaurav Jain, Prashant J. Nair, Ilya Soloveychik...

TL;DRKeyformer 利用新颖的评分函数，通过仅保留关键令牌来减少 Key-Value 缓存大小和内存带宽使用，从而降低推理延迟 2.1 倍，提高标记生成吞吐量 2.4 倍，并保持模型准确性。

Abstract

transformers have emerged as the underpinning architecture for Large Language Models (LLMs). In generative language models, the inference process involves two primary phases: prompt processing and token generation

transformers large language models token generation key-value cache keyformer

发现论文，激发创造

InfiniGen：基于动态 KV 缓存管理的大规模语言模型的高效生成推断

Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.

Jun, 2024

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

Kformer：Transformer 前馈层中的知识注入

我们提出了一种简单的模型 Kformer，它通过在 Transformer 的 FFN 层中注入来自 PTMs 和外部知识的信息，利用了 PTMs 存储的知识和内部的数量知识神经元。实验结果表明，在常识推理和医学问答等知识密集型任务中，Kformer 的表现优于其他知识注入技术，如连接或基于注意力的注入。

Jan, 2022

键值变换器

通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

May, 2023

使用 Treeformers 形成树形结构

Treeformer 是一种基于 CKY 算法和 Transformer 的体系结构，可以用于构建短语和句子的分层编码，相较于传统的基于 token 编码的 Transformer，能在机器翻译、文本摘要和自然语言理解等任务上带来显著改进。

Jul, 2022

使用 KV 缓存压缩合成循环以实现高效的 LLM 推理

通过整合一个（几乎不消耗）常量大小的缓存与基于驱逐策略的缓存方法，提出了 LESS，以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点，帮助降低性能差距和提高效率。

Feb, 2024

KV-Runahead: 并行键值缓存生成的可扩展因果 LLM 推断

在这项工作中，我们提出了一种高效的并行化方案 KV-Runahead，旨在加速大型语言模型的前置阶段。通过利用键值缓存（KV-cache），KV-Runahead 通过协调多个进程填充 KV-cache 以最小化时间到达第一个标记（TTFT）。我们进一步提出上下文级负载平衡来处理不均匀的 KV-cache 生成，并优化 TTFT。与现有的并行化方案相比，KV-Runahead 在 Llama 7B 和 Falcon 7B 上分别提供了 1.4 倍和 1.6 倍的加速。

May, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%，而不会引起性能明显下降。

Apr, 2024

部署长上下文变压器的挑战：理论峰值性能分析

为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。

May, 2024

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

通过压缩键值缓存并保留关键上下文，提出了一种名为 PyramidInfer 的方法，以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法，在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。

May, 2024