NoMAD-Attention：通过无乘法加法注意力在 CPU 上高效执行 LLM 推断

Mar, 2024

NoMAD-Attention：通过无乘法加法注意力在 CPU 上高效执行 LLM 推断

NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

Tianyi Zhang, Jonah Wonkyu Yi, Bowen Yao, Zhaozhuo Xu, Anshumali Shrivastava

TL;DR借助现代 CPU 中的 Single-Instruction-Multiple-Data（SIMD）寄存器的独特能力，本文提出了 NoMAD-Attention，一种高效的注意力算法，通过在寄存器中进行查找来取代昂贵的 Multiply-Add（MAD）矩阵运算，从而实现了注意力分数的计算。实证评估表明，NoMAD-Attention 在保持原始 LLMs 质量的同时，将基于 4 位量化的 LLaMA-7B 模型的速度提高了 2 倍，上下文长度为 16k。

Abstract

large language model inference on Central Processing Units (cpu) is challenging due to the vast quantities of expensive Multiply-Add (MAD) matrix operations in the attention computations. In this paper, we argue

large language model cpu multiply-add matrix operations single-instruction-multiple-data registers nomad-attention

发现论文，激发创造

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

AttentionLego：一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

使用 Transformer 架构的大型语言模型（LLMs）在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元（GPUs）在计算过程中的输入 / 输出带宽需求问题，研究开发了一种全定制化的基于自注意力机制的加速器 AttentionLego，用于构建可扩展的 LLM 处理器。AttentionLego 基于处理内存（PIM）技术提供了基本实现，采用了 PIM 基础的矩阵 - 向量乘法和查找表 - Softmax 设计。开源代码可在线获取：this https URL

Jan, 2024

SparQ 注意力：高带宽效率的 LLM 推理

通过选择性提取缓存历史记录，使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量，减少注意力块中的内存带宽需求，同时无需修改预训练设置或进行额外的微调，通过在多个下游任务上评估 Llama 2 和 Pythia 模型，展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。

Dec, 2023

注意力计算的快速量子算法

本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵，并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构，这将有助于获得更快的 LLM 训练算法。此外，我们还对算法的错误分析和时间复杂度进行了详细分析。

Jul, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

神经注意力存储

提出了一种新颖的关注机制，即神经关注记忆（NAM），它是一种可读写的记忆结构，并基于此设计了基于 NAM 的 MANN、few-shot 学习、N-way K-shot 学习和 Transformer 等模型，实验证明 NAM 在算法零样本泛化、减少假阳性等方面效果更好。

Feb, 2023

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

常数内存注意力块

提出了 CMAB 的全新通用关注块的方法，并展示了在神经过程和时间点过程中竞争状态下达到与现有技术相当结果的大量经验证据，同时显著提高了内存效率。

Jun, 2023

不是所有的注意力都有必要：针对多模态大型语言模型的参数和计算效率高的迁移学习

本文提出了一种针对多模态大型语言模型（MLLMs）的参数和计算效率高的新调优方法，称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制（MHAs）来加快推理速度，同时通过传播信息适配器（PIA）以保持参数效率，进一步降低推理延迟，并通过对一组基准测试的大量实验证明，EAS 不仅保持了高性能和参数效率，还极大地提升了推理速度。

Mar, 2024

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023