PolySketchFormer:基于草图的快速 Transformer 用于多项式核函数
通过理论分析高次多项式注意力机制的表达能力,我们指出高次多项式对于放大大值和区分数据集方面的更高效性,为在注意力机制中引入更高次多项式以捕捉复杂的语言关联提供了理论依据。
Oct, 2023
本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer,通过线性操作和余弦基础距离重新加权机制,保证了注意矩阵非负性和分布可以集中,并在语言建模和文本理解任务中取得了很好的效果。
Feb, 2022
本文介绍 Performers,这是 Transformer 结构,可以通过使用一种称为 FAVOR + 的新方法来估计常规(softmax)全秩注意力 Transformers,其具有可证明的准确性,但仅使用线性(而不是二次)空间和时间复杂性,而不依赖于任何先验知识,如稀疏度或低秩性。Performers 是线性结构,可以与常规 Transformers 完全兼容,并具有较强的理论保证。在各种任务上对 Performers 进行了测试,并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力,展示了 Performers 所利用的新型关注学习范式的效果。
Sep, 2020
本文提出了 Skyformer 模型,借鉴了核机器的计算方法,通过将 softmax 结构替换为高斯核以稳定模型训练,并将 Nyström 方法调整为一个非半正定矩阵以加速计算,实验结果表明该模型不仅需要的计算资源更少,而且在大规模 Arena 基准测试中表现得不逊于完全自注意力机制。
Oct, 2021
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
Jun, 2021
TaylorShift 是一种新的 Taylor softmax 重构方法,能够在线性时间和空间内计算完整的 token-to-token 交互,提高了 Transformers 处理长序列的效率,并且在进行分类任务时不会降低准确性。
Mar, 2024
本文提出了一种基于轴向分解核积分的可学习投影运算符的因式化变压器模型 Factorized Transformer,该模型使用一维域将输入函数分解为多个子函数,用于计算基于实例的内核。我们演示了该模型在 256 x 256 网格上模拟 2D Kolmogorov 流和在 64 x 64 x 64 网格上模拟 3D 烟雾浮力的精度和效率良好。此外,我们发现使用因式化方案时,注意力矩阵的频谱比全 softmax-free 注意力矩阵更紧凑。
May, 2023
通过提出一种基于矩阵多项式的自注意力层作为替代,我们改善了 Transformer 在表格数据中存在的平滑问题,并展示该层能够提高表格数据的表示性能,胜过现有方法。
Dec, 2023