基于多项式的注意力机制的表示能力

Oct, 2023

基于多项式的注意力机制的表示能力

The Expressibility of Polynomial based Attention Scheme

Zhao Song, Guangyi Xu, Junze Yin

TL;DR通过理论分析高次多项式注意力机制的表达能力，我们指出高次多项式对于放大大值和区分数据集方面的更高效性，为在注意力机制中引入更高次多项式以捕捉复杂的语言关联提供了理论依据。

Abstract

large language models (LLMs) have significantly improved various aspects of our daily lives. These models have impacted numerous domains, from healthcare to education, enhancing productivity, decision-making processes, and accessibility. As a result, they have influenced and, to some e

large language models transformer architectures polynomial attention expressive capabilities linguistic correlations

发现论文，激发创造

PolySketchFormer：基于草图的快速 Transformer 用于多项式核函数

该研究论文通过使用多项式函数和多项式取样法，替代基于 softmax 的注意力机制，以及提出基于区块的算法，实现了一个能够在线性时间内计算多项式注意力机制的实用线性变换器架构，从而显著提高了大规模上下文下的注意力机制的速度。

Oct, 2023

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

深度多项式神经网络的表达能力

通过研究多项式激活的深度神经网络，我们提出了 “维度” 作为多项式神经网络表现力的度量标准，并探讨了它受体系结构影响的理论结果。同时，我们还将我们的研究与有利的优化性质联系起来，以及与张量和多项式分解等领域产生了有趣的关联。

May, 2019

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

注意力计算的快速量子算法

本文讨论利用 Grover 的搜索算法有效地计算稀疏注意力计算矩阵，并在经典方法上实现了多项式量子加速。我们的量子算法输出的注意力矩阵还具有额外的低秩结构，这将有助于获得更快的 LLM 训练算法。此外，我们还对算法的错误分析和时间复杂度进行了详细分析。

Jul, 2023

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

基于多项式的自注意力机制用于表格表示学习

通过提出一种基于矩阵多项式的自注意力层作为替代，我们改善了 Transformer 在表格数据中存在的平滑问题，并展示该层能够提高表格数据的表示性能，胜过现有方法。

Dec, 2023

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023

多项规范器：线性时间的多项式表达图转换器

Polynormer 是一个多项式表达的图形转换器模型，具有线性复杂度，通过采用局部和全局等变注意模型，实现了具有线性的本地到全局注意机制，从而实现了在大规模图上的表达能力和可扩展性的平衡。在 13 个数据集上的评估结果表明，Polynormer 在大多数数据集上优于最先进的图神经网络和图形转换器基准模型，甚至在没有使用非线性激活函数的情况下也能取得良好的性能。

Mar, 2024

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024