位置知识是一切所需:面向操作员学习的位置感知变压器 (PiT)
论文探讨了通过引入物理学知识嵌入偏微分方程 (PDE) 学习过程中,并使用方程分词方法学习一个分析驱动数值更新运算符的物理学知道 Transformer 模型,来解决传统方法慢和传统机器模型无法使用完整系统信息的问题。研究结果表明,PITT 方法能够在 1D 和 2D 任务中优于传统的傅里叶神经运算符,并可以从控制方程中提取物理上相关的信息。
May, 2023
本研究提出了一种基于自注意力机制的模型 Operator Transformer(OFormer)用于数据驱动的偏微分方程算子学习,该模型相对于传统方法不依赖于采样模式,并在标准基准测试中表现优异。
May, 2022
通过学习解算子,解决偏微分方程已成为传统数值方法的有吸引力的替代方法,我们介绍了一种基于注意力机制的模型 —— 感应点操作器变换器(IPOT),它能处理任意输入函数与输出查询,并以计算高效的方式捕捉全局交互,实验结果表明,与先进方法相比,在广泛的偏微分方程基准和实际天气预测方案中,IPOT 取得了良好的性能和可管理的计算复杂性。
Dec, 2023
我们提出了一种改进 transformer 架构的方法,通过引入自我注意力作为自主状态空间模型,控制系统对输入的干扰进行反馈控制,提高模型的稳定性和容错能力,从而解决了 softmax transformer 中的秩坍缩问题。我们通过在目标分类、图像分割和语言建模等实际任务中的实验证明了该模型的优势和鲁棒性。
Feb, 2024
本文分析了现有语言模型的位置嵌入,发现其对于自注意力有着强烈的翻译不变性,并提出了一种解决方案 —— 翻译不变的自注意力模型(TISA),它可以以一种可解释的方式考虑标记之间的相对位置,而无需传统的位置嵌入,实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。
Jun, 2021
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
神经算子学习模型被证实为部分微分方程在各种应用中的高效代理方法,本文通过建立理论基础将变压器作为算子学习模型实现通用逼近性,并应用于预测具有不同初始条件和强迫项的有限正则性动力学系统的解。
May, 2024
通过对来自一个广义 Potts 模型的数据进行学习,我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布,这种修改后的自注意力具有与条件概率相同的功能形式。
Apr, 2023
本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示,比绝对位置表示获得了更好的机器翻译结果。同时,将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。
Mar, 2018