随机和确定性关注稀疏化算法：超参数化特征维度

Apr, 2023

随机和确定性关注稀疏化算法：超参数化特征维度

Randomized and Deterministic Attention Sparsification Algorithms for Over-parameterized Feature Dimension

Yichuan Deng, Sridhar Mahadevan, Zhao Song

TL;DR本研究考虑应用于大型语言模型中的注意力计算问题的矩阵稀疏化，并提出了两种算法解决该问题。实验结果表明，我们的研究成果可以将超大的特征维度降低到接近于句子长度的线性大小。

Abstract

large language models (LLMs) have shown their power in different areas. attention computation, as an important subroutine of LLMs, has also attracted interests in theory. Recently the static computation and dynam

large language models attention computation sparsification matrix feature dimension

发现论文，激发创造

一种快速优化视角：基于张量和 SVM 技巧重构 LLM 中的单层注意力机制，并在矩阵乘法时间内解决

通过迭代贪婪算法，在近似于 ε 的时间内训练了一个损失函数 L (X,Y)，其中 ε 是迭代次数，该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。

Sep, 2023

超级关注力：近线性时间的长篇长文本关注力

我们提出了一个名为 HyperAttention 的近似注意力机制，用于解决大型语言模型（LLMs）中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度，我们能够实现线性时间采样算法，即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计，容易集成其他快速底层实现，特别是 FlashAttention。实证上，通过利用局部敏感哈希（LSH）来识别大条目，HyperAttention 优于现有方法，在与 FlashAttention 等最先进解决方案相比，获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能，例如，ChatGLM2 的推理时间得以加快 50％，而困惑度从 5.6 增加到 6.3。对于更大的上下文长度，例如 131k，并采取因果屏蔽，HyperAttention 在单个注意层上实现了 5 倍的加速。

Oct, 2023

自注意力矩阵的表达能力

本文研究了 Transformer 网络中的自注意力矩阵，重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。尤其是，在保持矩阵元素比率不变的精度下，仅需要 $log L$（L 为序列长度）的 $ d $ 即可逼近任何稀疏矩阵。

Jun, 2021

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

注意力计算的快速量子算法

本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵，并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构，这将有助于获得更快的 LLM 训练算法。此外，我们还对算法的错误分析和时间复杂度进行了详细分析。

Jul, 2023

差分私有注意力计算

本文主要研究大型语言模型的隐私问题，提出采用差分隐私的方法对其准确计算注意力矩阵的隐私保护。通过借鉴早期的差分隐私工作，构建了可以被证明的计算方法。

May, 2023

Conv-Basis：Transformer 中高效注意力推理与梯度计算的新范式

大型语言模型对世界产生了深远影响，其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而，长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法，提出了一个类似秩基系统的卷积基系统，表明任意下三角（注意力）矩阵总是可以在该基系统中分解为 k 个结构化卷积矩阵的和。我们然后设计了一个算法，快速将注意力矩阵分解为 k 个卷积矩阵。借助快速傅里叶变换（FFT），可以在 O (knd log n) 的时间内计算注意力推理，其中 d 是隐藏维度。实际上，我们有 d ≪ n，即 d = 3,072 和 n = 1,000,000 用于 Gemma。因此，当 kd = n^{o (1)} 时，我们的算法实现了几乎线性时间，即 n^{1+o (1)}。此外，注意力的训练前向和反向梯度也可以在 n^{1+o (1)} 内计算。我们的方法可以避免明确计算 n×n 的注意力矩阵，这可能会大大减轻二次计算复杂度。此外，我们的算法适用于任何输入矩阵。本研究提供了一种加速 transformer 注意力计算的新范式，以实现其对更长上下文的应用。

May, 2024

通过预条件器解决关注度核回归问题

通过计算注意力矩阵，大型语言模型在许多任务中展现出了令人印象深刻的性能。本研究定义和研究了一种新问题，即注意力内核回归问题，并展示了如何在数据矩阵的输入稀疏时间内解决该问题。

Aug, 2023

基于多项式的注意力机制的表示能力

通过理论分析高次多项式注意力机制的表达能力，我们指出高次多项式对于放大大值和区分数据集方面的更高效性，为在注意力机制中引入更高次多项式以捕捉复杂的语言关联提供了理论依据。

Oct, 2023

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023