位置知识是一切所需：面向操作员学习的位置感知变压器 (PiT)

May, 2024

位置知识是一切所需：面向操作员学习的位置感知变压器 (PiT)

Positional Knowledge is All You Need: Position-induced Transformer (PiT) for Operator Learning

Junfeng Chen, Kailiang Wu

TL;DR该论文提出了一种基于创新的位置注意机制构建的位置诱导变压器 (PiT)，相比经典的自注意力，PiT 在算子学习中表现出显著优势，并且在各种复杂算子学习任务和不同的偏微分方程基准测试中，PiT 在当前最先进的神经算子方法中展现出卓越性能。

Abstract

operator learning for partial differential equations (PDEs) is rapidly emerging as a promising approach for surrogate modeling of intricate systems. →

operator learning partial differential equations transformers position-induced transformer position-attention

发现论文，激发创造

物理信息标记变换器

论文探讨了通过引入物理学知识嵌入偏微分方程 (PDE) 学习过程中，并使用方程分词方法学习一个分析驱动数值更新运算符的物理学知道 Transformer 模型，来解决传统方法慢和传统机器模型无法使用完整系统信息的问题。研究结果表明，PITT 方法能够在 1D 和 2D 任务中优于传统的傅里叶神经运算符，并可以从控制方程中提取物理上相关的信息。

May, 2023

偏微分方程算子学习的 Transformer

本研究提出了一种基于自注意力机制的模型 Operator Transformer（OFormer）用于数据驱动的偏微分方程算子学习，该模型相对于传统方法不依赖于采样模式，并在标准基准测试中表现优异。

May, 2022

诱导点算子变换器：一种用于求解 PDE 的灵活可扩展的体系结构

通过学习解算子，解决偏微分方程已成为传统数值方法的有吸引力的替代方法，我们介绍了一种基于注意力机制的模型 —— 感应点操作器变换器（IPOT），它能处理任意输入函数与输出查询，并以计算高效的方式捕捉全局交互，实验结果表明，与先进方法相比，在广泛的偏微分方程基准和实际天气预测方案中，IPOT 取得了良好的性能和可管理的计算复杂性。

Dec, 2023

选择变换方法：傅里叶或伽辽金

本文介绍了一种基于 Transformers 的 Galarkin 变换学习器，能够在解决偏微分方程方面，显著提高训练成本和评估准确性。

May, 2021

PIDformer: Transformer 遇见控制理论

我们提出了一种改进 transformer 架构的方法，通过引入自我注意力作为自主状态空间模型，控制系统对输入的干扰进行反馈控制，提高模型的稳定性和容错能力，从而解决了 softmax transformer 中的秩坍缩问题。我们通过在目标分类、图像分割和语言建模等实际任务中的实验证明了该模型的优势和鲁棒性。

Feb, 2024

基于 Transformer 的语言模型中的平移无关自注意力论证

本文分析了现有语言模型的位置嵌入，发现其对于自注意力有着强烈的翻译不变性，并提出了一种解决方案 —— 翻译不变的自注意力模型（TISA），它可以以一种可解释的方式考虑标记之间的相对位置，而无需传统的位置嵌入，实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。

Jun, 2021

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

利用 Transformer 作为具有有限规律性的微分方程求解的神经算子

神经算子学习模型被证实为部分微分方程在各种应用中的高效代理方法，本文通过建立理论基础将变压器作为算子学习模型实现通用逼近性，并应用于预测具有不同初始条件和强迫项的有限正则性动力学系统的解。

May, 2024

利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

通过对来自一个广义 Potts 模型的数据进行学习，我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布，这种修改后的自注意力具有与条件概率相同的功能形式。

Apr, 2023

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018