动态内存压缩：为加速推断而改进语言模型

Mar, 2024

动态内存压缩：为加速推断而改进语言模型

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti

TL;DR通过动态内存压缩 (DMC) 方法，我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量，在保持原有性能的同时，使用不同的压缩率来适应不同的注意头和层级，并可以与其他技术相结合以提供更好的结果。

Abstract

transformers have emerged as the backbone of large language models (LLMs). However, generation remains inefficient due to the need to store in memory a cache of key-value representations for past tokens, whose size scales linearly with the input sequence length and batch size. As a sol

transformers dynamic memory compression key-value cache compression auto-regressive inference downstream performance

发现论文，激发创造

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

动态存储量化用于高效的 Transformer 训练

本文提出一种新颖的动态存储量化策略，Dynamic Stashing Quantization（DSQ），旨在减少内存操作，并享受低精度训练的其他好处，比如减少运算成本，通过在两个翻译任务和三个分类任务上的研究表明，DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍，并将 DRAM 操作数量降低了 2.55 倍，这为大语言模型在设备学习中的部署提供了解决方案。

Mar, 2023

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

Nugget 2D：用于扩展仅解码器语言模型的动态上下文压缩

通过动态上下文压缩的 Nugget2D 方法，将 Transformer-based 语言模型扩展到只有解码器的 LMs，实现了对长上下文的高效处理和压缩，同时在语言建模、问答和摘要等任务中保持了较高的性能。

Oct, 2023

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

USDC: 统一的静态与动态压缩方法用于视觉 Transformer

将静态压缩和动态压缩技术共同融合，从而获得一个输入自适应的压缩模型，以更好地平衡总体压缩比和模型性能，并通过子组门扩充技术解决性能下降问题。

Oct, 2023