面向高效和可解释的自回归转换器的动态上下文剪枝

May, 2023

面向高效和可解释的自回归转换器的动态上下文剪枝

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

Sotiris Anagnostidis, Dario Pavllo, Luca Biggio, Lorenzo Noci, Aurelien Lucchi...

TL;DR本文提出一种采用动态修剪机制的 Autoregressive Transformers 方法，可以在保持模型表现力不变的同时，减少生成过程中上下文信息的存储和计算负担，有效地解决了推理成本过高的问题。实验证明，该方法可以高效地修剪 80% 的上下文信息，同时大幅提升推理吞吐量和节约存储空间。

Abstract

autoregressive transformers adopted in large language models (LLMs) are hard to scale to long sequences. Despite several works trying to reduce their computational cost, most of LLMs still adopt attention layers

autoregressive transformers large language models dynamic pruning memory and computational requirements inference costs

发现论文，激发创造

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

使用哨兵标记对自回归 Transformer 进行上下文压缩

通过增量压缩指定范围的令牌的中间激活，我们提出了一种即插即用的方法，从而在处理后续上下文时减少了内存和计算成本。实验证明，与稀疏注意力基线相比，我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后，我们全面评估了上下文压缩对系统改进的益处。

Oct, 2023

Mini-GPTs: 基于上下文剪枝的高效大型语言模型

利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型（LLMs），通过对传统 LLMs 的计算架构进行剪枝，保留核心功能同时大幅减小模型大小，此方法在多样且复杂的数据集上展现了高效性和有效性，作为构建领域特定 LLMs 的潜力方法，是未来发展的基石。

Dec, 2023

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

将语言模型适应于压缩上下文

该论文旨在介绍一种新型的 AutoCompressors 语言模型，可以将长文档内容压缩成简洁的总结向量，并将其用作语言模型的轻提示，从而提高了模型处理长文本时间的效率，并在任务演示、检索等领域取得了显著进展。

May, 2023

ShadowLLM: 基于预测的上下文稀疏化大语言模型

使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Jun, 2024

Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘

该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。

Mar, 2022