随机和确定性关注稀疏化算法:超参数化特征维度
通过迭代贪婪算法,在近似于 ε 的时间内训练了一个损失函数 L (X,Y),其中 ε 是迭代次数,该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。
Sep, 2023
我们提出了一个名为 HyperAttention 的近似注意力机制,用于解决大型语言模型(LLMs)中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度,我们能够实现线性时间采样算法,即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计,容易集成其他快速底层实现,特别是 FlashAttention。实证上,通过利用局部敏感哈希(LSH)来识别大条目,HyperAttention 优于现有方法,在与 FlashAttention 等最先进解决方案相比,获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能,例如,ChatGLM2 的推理时间得以加快 50%,而困惑度从 5.6 增加到 6.3。对于更大的上下文长度,例如 131k,并采取因果屏蔽,HyperAttention 在单个注意层上实现了 5 倍的加速。
Oct, 2023
本文研究了 Transformer 网络中的自注意力矩阵,重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数,采用不同的输入即可逼近各种稀疏矩阵,并提出了一种基于随机映射技术的构造性证明和算法。尤其是,在保持矩阵元素比率不变的精度下,仅需要 $log L$(L 为序列长度)的 $ d $ 即可逼近任何稀疏矩阵。
Jun, 2021
通过对注意力机制中稀疏性的理论分析,揭示了注意力分数稀疏性的内在特性及其对计算效率的影响,并为优化大型语言模型的计算框架提供了一个理论检验,为更可扩展和高效的人工智能系统铺平了道路。
Apr, 2024
本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵,并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构,这将有助于获得更快的 LLM 训练算法。此外,我们还对算法的错误分析和时间复杂度进行了详细分析。
Jul, 2023
大型语言模型对世界产生了深远影响,其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而,长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法,提出了一个类似秩基系统的卷积基系统,表明任意下三角(注意力)矩阵总是可以在该基系统中分解为 k 个结构化卷积矩阵的和。我们然后设计了一个算法,快速将注意力矩阵分解为 k 个卷积矩阵。借助快速傅里叶变换(FFT),可以在 O (knd log n) 的时间内计算注意力推理,其中 d 是隐藏维度。实际上,我们有 d ≪ n,即 d = 3,072 和 n = 1,000,000 用于 Gemma。因此,当 kd = n^{o (1)} 时,我们的算法实现了几乎线性时间,即 n^{1+o (1)}。此外,注意力的训练前向和反向梯度也可以在 n^{1+o (1)} 内计算。我们的方法可以避免明确计算 n×n 的注意力矩阵,这可能会大大减轻二次计算复杂度。此外,我们的算法适用于任何输入矩阵。本研究提供了一种加速 transformer 注意力计算的新范式,以实现其对更长上下文的应用。
May, 2024
通过计算注意力矩阵,大型语言模型在许多任务中展现出了令人印象深刻的性能。本研究定义和研究了一种新问题,即注意力内核回归问题,并展示了如何在数据矩阵的输入稀疏时间内解决该问题。
Aug, 2023
通过理论分析高次多项式注意力机制的表达能力,我们指出高次多项式对于放大大值和区分数据集方面的更高效性,为在注意力机制中引入更高次多项式以捕捉复杂的语言关联提供了理论依据。
Oct, 2023