基于多项式的注意力机制的表示能力
该研究论文通过使用多项式函数和多项式取样法,替代基于 softmax 的注意力机制,以及提出基于区块的算法,实现了一个能够在线性时间内计算多项式注意力机制的实用线性变换器架构,从而显著提高了大规模上下文下的注意力机制的速度。
Oct, 2023
Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.
Oct, 2023
通过研究多项式激活的深度神经网络,我们提出了 “维度” 作为多项式神经网络表现力的度量标准,并探讨了它受体系结构影响的理论结果。同时,我们还将我们的研究与有利的优化性质联系起来,以及与张量和多项式分解等领域产生了有趣的关联。
May, 2019
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵,并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构,这将有助于获得更快的 LLM 训练算法。此外,我们还对算法的错误分析和时间复杂度进行了详细分析。
Jul, 2023
通过对 softmax 和线性注意机制进行全面的比较分析,我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。
Oct, 2023
通过提出一种基于矩阵多项式的自注意力层作为替代,我们改善了 Transformer 在表格数据中存在的平滑问题,并展示该层能够提高表格数据的表示性能,胜过现有方法。
Dec, 2023
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023
Polynormer 是一个多项式表达的图形转换器模型,具有线性复杂度,通过采用局部和全局等变注意模型,实现了具有线性的本地到全局注意机制,从而实现了在大规模图上的表达能力和可扩展性的平衡。在 13 个数据集上的评估结果表明,Polynormer 在大多数数据集上优于最先进的图神经网络和图形转换器基准模型,甚至在没有使用非线性激活函数的情况下也能取得良好的性能。
Mar, 2024
在传统的 transformer 模型中,标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法,将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用,通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比,标准的下一个记号预测的时间复杂度与序列长度成线性关系,而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
Feb, 2024