基于高斯分布输入的自然稀疏注意力

Apr, 2024

基于高斯分布输入的自然稀疏注意力

Attention is Naturally Sparse with Gaussian Distributed Input

Yichuan Deng, Zhao Song, Chiwun Yang

TL;DR通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Abstract

The computational intensity of large language models (LLMs) is a critical bottleneck, primarily due to the $O(n^2)$ complexity of the attention mechanism in transformer architectures. Addressing this, sparse attention

large language models sparse attention computational efficiency attention mechanisms optimizing computational frameworks

发现论文，激发创造

注意力计算的快速量子算法

本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵，并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构，这将有助于获得更快的 LLM 训练算法。此外，我们还对算法的错误分析和时间复杂度进行了详细分析。

Jul, 2023

稀疏注意力是否更易解释？

本文探讨了如何使用稀疏注意力来解释模型，我们设计了一系列的实验来研究稀疏性对于注意力解释能力的影响。通过针对三个文本分类任务的实验证明了，在稀疏和非稀疏的注意力下，输入和协同中间表示之间存在一种微弱的关系。此外，本文发现稀疏的注意力分布无法映射到一组稀疏的具有影响力的输入，从而表明在诱导稀疏性的设置下，注意力可能无法作为理解模型行为的工具。

Jun, 2021

高效稀疏注意力需要自适应令牌释放

通过自适应释放缓存资源和重构必要的键值状态，以实现生成性能的竞争力和高达 221.8% 的吞吐量改善。

Jul, 2024

MoA: 自动大规模语言模型压缩的稀疏注意力混合

稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文长度提高 3.9 倍，并在多个评估指标上取得 1.5-7.1 倍的准确性提升，在 GPU 内存减少 1.2-1.4 倍的同时，提升解码吞吐量 5.5-6.7 倍。

Jun, 2024

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

神经语言模型自然出现稀疏性

本研究探讨稀疏神经模型在自然语言处理中的重要性，使用出租车欧几里得范数对稀疏度进行量化，发现输入频繁的词在激活方面较为集中，而目标词汇的激活由分散变得集中，并且功能词梯度比内容词梯度更集中。

Jul, 2019

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

注意力近似稀疏分布式存储

该研究发现，在某些数据条件下，Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联，可以提供 Attention 的新的计算和生物学解释，进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。

Nov, 2021

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022