AttentionLego：一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

Jan, 2024

AttentionLego：一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology

PDF

Rongqing Cong, Wenyang He, Mingxuan Li, Bangning Luo, Zebin Yang...

TL;DR使用 Transformer 架构的大型语言模型（LLMs）在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元（GPUs）在计算过程中的输入 / 输出带宽需求问题，研究开发了一种全定制化的基于自注意力机制的加速器 AttentionLego，用于构建可扩展的 LLM 处理器。AttentionLego 基于处理内存（PIM）技术提供了基本实现，采用了 PIM 基础的矩阵 - 向量乘法和查找表 - Softmax 设计。开源代码可在线获取：this https URL

Abstract

large language models (LLMs) with transformer architectures have become phenomenal in natural language processing, multimodal generative artificial intelligence, and agent-oriented artificial intelligence. The se

large language models transformer architectures self-attention module gpus attentionlego

发现论文，激发创造

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

Transformer 模型中的关键要素：并非所有的注意力都是必要的

通过使用基于相似性的度量标准，本文研究了 Transformer 中不同模块（如 Blocks、MLP 和 Attention 层）之间的冗余性变化，发现一大部分 Attention 层可以被安全剪枝，从而降低内存和计算成本，并提出了一种同时舍弃 Attention 和 MLP 层的方法，进一步提升性能和降低比率。

Jun, 2024

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

多层可学习的多模态任务注意力掩码

通过引入可学习的注意力掩码（LAM）来全局调控注意力图并优先选择序列中的关键标记，该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联，通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息，实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算，从而对复杂情景理解方面，如电影理解等，取得了显著的进展。

Jun, 2024

注意力计算的快速量子算法

本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵，并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构，这将有助于获得更快的 LLM 训练算法。此外，我们还对算法的错误分析和时间复杂度进行了详细分析。

Jul, 2023

不同长度，匀速进行：高效语言建模与闪电注意力

我们提出了闪电注意力（Lightning Attention），这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。

May, 2024

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024

注意力透镜：一种解释机制注意头信息检索机制的工具

利用学习的注意力头特定转换，Attention Lens 将注意力头的输出转化为词汇标记，揭示了注意力头在语言模型中的高度特殊化角色。

Oct, 2023