PolySketchFormer：基于草图的快速 Transformer 用于多项式核函数

Oct, 2023

PolySketchFormer：基于草图的快速 Transformer 用于多项式核函数

PolySketchFormer: Fast Transformers via Sketches for Polynomial Kernels

Praneeth Kacham, Vahab Mirrokni, Peilin Zhong

TL;DR该研究论文通过使用多项式函数和多项式取样法，替代基于 softmax 的注意力机制，以及提出基于区块的算法，实现了一个能够在线性时间内计算多项式注意力机制的实用线性变换器架构，从而显著提高了大规模上下文下的注意力机制的速度。

Abstract

The quadratic complexity of attention in transformer architectures remains a big bottleneck in scaling up large foundation models for long context. In fact, recent theoretical results show the hardness of approximating the output of softmax →

quadratic complexity attention mechanism polynomial function sketches block-based algorithm

发现论文，激发创造

基于多项式的注意力机制的表示能力

通过理论分析高次多项式注意力机制的表达能力，我们指出高次多项式对于放大大值和区分数据集方面的更高效性，为在注意力机制中引入更高次多项式以捕捉复杂的语言关联提供了理论依据。

Oct, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

cosFormer: 重新思考注意力机制中的 Softmax

本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer，通过线性操作和余弦基础距离重新加权机制，保证了注意矩阵非负性和分布可以集中，并在语言建模和文本理解任务中取得了很好的效果。

Feb, 2022

重塑注意力：使用 Performer

本文介绍 Performers，这是 Transformer 结构，可以通过使用一种称为 FAVOR + 的新方法来估计常规（softmax）全秩注意力 Transformers，其具有可证明的准确性，但仅使用线性（而不是二次）空间和时间复杂性，而不依赖于任何先验知识，如稀疏度或低秩性。Performers 是线性结构，可以与常规 Transformers 完全兼容，并具有较强的理论保证。在各种任务上对 Performers 进行了测试，并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力，展示了 Performers 所利用的新型关注学习范式的效果。

Sep, 2020

Skyformer：高斯核与 Nyström 方法重构自注意力

本文提出了 Skyformer 模型，借鉴了核机器的计算方法，通过将 softmax 结构替换为高斯核以稳定模型训练，并将 Nyström 方法调整为一个非半正定矩阵以加速计算，实验结果表明该模型不仅需要的计算资源更少，而且在大规模 Arena 基准测试中表现得不逊于完全自注意力机制。

Oct, 2021

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

选择变换方法：傅里叶或伽辽金

本文介绍了一种基于 Transformers 的 Galarkin 变换学习器，能够在解决偏微分方程方面，显著提高训练成本和评估准确性。

May, 2021

TaylorShift: 使用 Taylor-Softmax 将自注意力的复杂性从平方级转换为线性级（以及反向转换）

TaylorShift 是一种新的 Taylor softmax 重构方法，能够在线性时间和空间内计算完整的 token-to-token 交互，提高了 Transformers 处理长序列的效率，并且在进行分类任务时不会降低准确性。

Mar, 2024

可扩展的 Transformer 用于 PDE 替代模型

本文提出了一种基于轴向分解核积分的可学习投影运算符的因式化变压器模型 Factorized Transformer，该模型使用一维域将输入函数分解为多个子函数，用于计算基于实例的内核。我们演示了该模型在 256 x 256 网格上模拟 2D Kolmogorov 流和在 64 x 64 x 64 网格上模拟 3D 烟雾浮力的精度和效率良好。此外，我们发现使用因式化方案时，注意力矩阵的频谱比全 softmax-free 注意力矩阵更紧凑。

May, 2023

基于多项式的自注意力机制用于表格表示学习

通过提出一种基于矩阵多项式的自注意力层作为替代，我们改善了 Transformer 在表格数据中存在的平滑问题，并展示该层能够提高表格数据的表示性能，胜过现有方法。

Dec, 2023