高效经济的大型语言模型推理与注意力卸载

May, 2024

高效经济的大型语言模型推理与注意力卸载

Efficient and Economic Large Language Model Inference with Attention Offloading

Shaoyuan Chen, Yutong Lin, Mingxing Zhang, Yongwei Wu

TL;DR通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

Abstract

transformer-based large language models (LLMs) exhibit impressive performance in generative tasks but introduce significant challenges in real-world serving due to inefficient use of the expensive, computation-optimized accelerators. This mismatch arises from the autoregressive nature

transformer-based large language models attention offloading efficiency cost-effectiveness lamina

发现论文，激发创造

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

SparQ 注意力：高带宽效率的 LLM 推理

通过选择性提取缓存历史记录，使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量，减少注意力块中的内存带宽需求，同时无需修改预训练设置或进行额外的微调，通过在多个下游任务上评估 Llama 2 和 Pythia 模型，展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。

Dec, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

AttentionLego：一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

使用 Transformer 架构的大型语言模型（LLMs）在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元（GPUs）在计算过程中的输入 / 输出带宽需求问题，研究开发了一种全定制化的基于自注意力机制的加速器 AttentionLego，用于构建可扩展的 LLM 处理器。AttentionLego 基于处理内存（PIM）技术提供了基本实现，采用了 PIM 基础的矩阵 - 向量乘法和查找表 - Softmax 设计。开源代码可在线获取：this https URL

Jan, 2024

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

使用中继注意力实现高效的大型语言模型与长系统提示的服务

通过一种名为 RelayAttention 的算法，该论文提出了一种提高大型语言模型（LLM）服务效率的方法，解决了长系统提示导致的吞吐量 / 延迟瓶颈问题，该算法通过从 DRAM 准确一次性读取输入令牌批次的隐藏状态，从而消除了系统提示的冗余。

Feb, 2024

基于锚定的大型语言模型

本研究引入了基于锚点的 LLM (AnLLM) 模型，该模型利用了一种创新的基于锚点的自注意力网络 (AnSAN) 和一种基于锚点的推理策略，将序列信息压缩到锚点令牌中，从而减少键 / 值缓存并提高推理效率。实验证明，AnLLM 在保持可比精度的同时缩减了 99% 的键 / 值缓存，并实现了高达 3.5 倍的更快推理速度。尽管在精度上有轻微折衷，AnLLM 在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实际应用中对于实时推理的潜力。

Feb, 2024

不是所有的注意力都有必要：针对多模态大型语言模型的参数和计算效率高的迁移学习

本文提出了一种针对多模态大型语言模型（MLLMs）的参数和计算效率高的新调优方法，称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制（MHAs）来加快推理速度，同时通过传播信息适配器（PIA）以保持参数效率，进一步降低推理延迟，并通过对一组基准测试的大量实验证明，EAS 不仅保持了高性能和参数效率，还极大地提升了推理速度。

Mar, 2024