选择变换方法：傅里叶或伽辽金

May, 2021

Choose a Transformer: Fourier or Galerkin

Shuhao Cao

TL;DR本文介绍了一种基于 Transformers 的 Galarkin 变换学习器，能够在解决偏微分方程方面，显著提高训练成本和评估准确性。

Abstract

In this paper, we apply the self-attention from the state-of-the-art transformer in Attention Is All You Need for the first time to a data-driven

发现论文，激发创造

本研究提出了一种基于自注意力机制的模型 Operator Transformer（OFormer）用于数据驱动的偏微分方程算子学习，该模型相对于传统方法不依赖于采样模式，并在标准基准测试中表现优异。

May, 2022

基于正交注意力机制的神经操作符，通过核积分算子的特征分解和神经逼近特征函数的方法，在对少量训练数据进行正则化处理，成功提高了泛化能力，使得在标准神经操作符基准数据集上超越其他方法。

Oct, 2023

该论文提出了一种基于创新的位置注意机制构建的位置诱导变压器 (PiT)，相比经典的自注意力，PiT 在算子学习中表现出显著优势，并且在各种复杂算子学习任务和不同的偏微分方程基准测试中，PiT 在当前最先进的神经算子方法中展现出卓越性能。

May, 2024

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

利用基于核操作学习的自我注意力机制的量子电路，我们提出了 Self-Attention Sequential Quantum Transformer Channel (SASQuaTCh) 模型，该模型能够有效地表示视觉变换网络的深层特征，并展示其在简化分类问题上的实用性。

Mar, 2024

通过对来自一个广义 Potts 模型的数据进行学习，我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布，这种修改后的自注意力具有与条件概率相同的功能形式。

Apr, 2023

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023