为什么敏感函数对 Transformer 较难？

Feb, 2024

为什么敏感函数对 Transformer 较难？

Why are Sensitive Functions Hard for Transformers?

Michael Hahn, Mark Rofin

TL;DR在变压器架构下，输入空间敏感性限制了损失函数的变化趋势，使得变压器在一般化方面表现出低敏感性和低程度的偏好，并且在计算简单形式语言（如 PARITY）和长度一般化方面存在困难。

Abstract

Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learn

transformers learnability biases limitations expressiveness theory loss landscape

发现论文，激发创造

Transformer 模型对学习低敏感性函数的简洁倾向

通过对变压器在随机输入变化的敏感性进行研究，揭示了其简约偏差以及频谱偏差，并发现低敏感性偏差与提高鲁棒性相关，并可作为进一步提高变压器鲁棒性的有效干预手段。

Mar, 2024

Transformer 模型中的简洁性偏好及其学习稀疏布尔函数能力

本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究，发现 Transformers 在形式语言的建模上相对较弱，但其在归纳偏差方面与 recurrent models 存在差异，可解释其在泛化性能方面表现优异。

Nov, 2022

超越 Transformers 的函数学习

本研究通过向 Transformer 架构添加两种归纳学习偏差来探究个体的外推能力，结果表明，这些偏差对大型神经网络模型有帮助，也揭示了人类的归纳性学习偏差的类型。

Apr, 2023

克服自注意力机制的理论限制

该研究研究了 Transformer 网络在接受依赖于单一输入符号的语言中的限制，并通过使用 PARITY 和 FIRST 语言作为例子，证明了三种克服该限制的方法。

Feb, 2022

探索变形金刚的归纳偏差：从无限的视角

在无限过参数化的高斯过程极限中，我们研究了 Transformer 中的归纳偏置，并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用，我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块，并解决了模型的极限，包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中，可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后，我们认为 WikiText 数据集确实具有一定的置换对称度。

Feb, 2024

并行权衡：Log-Precision Transformer 的局限性

本研究证明了计算精度对数与输入标记数量相关的 transformer 神经网络可以通过常深度对数空间均匀阈值电路进行模拟，并且从复杂性理论的角度提供了关于 transformer 网络计算力的见解，这表明如果 L≠P，那么 transformer 神经网络甚至无法精确解决线性等式或检查产生空符号的任意上下文无关语法的成员身份，因此研究也推测性地引入了一种基本的并行性权衡观念：与 transformer 一样并行化的任何模型体系结构都将遵守类似的限制，这暗示了放大模型范式的潜在固有弱点。

Jul, 2022

Transformer 对于回归问题是否表达能力足够？

Transformers 在自然语言处理中变得至关重要，在机器翻译和摘要等应用中取得了显著成功。然而，与现有观点相反，本研究发现 Transformers 在可靠地逼近连续函数方面存在困难，依赖于具有较大区间的分段常数逼近。通过理论分析和实验证据，我们全面调查了这一问题并揭示了 Transformers 的限制根源，凸显了对其能力的精确理解的重要性。

Feb, 2024

评估 Transformer 学习轻度语境敏感语言的能力

尽管 Transformer 在自然语言处理任务中表现良好，但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力，发现它们对未见过的分布数据具有良好的泛化能力，但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明，学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为，这可能有助于模型解决这些语言。

Sep, 2023

论 Transformer 识别形式语言的能力和限制

本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力，并探讨了其中各组件的作用，发现相比于 LSTMs，在某些行为建模上有一定优势，同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。

Sep, 2020

Transformer 需要眼镜！语言任务中的信息过度压缩

研究信息在解码器单独的 Transformer 模型中的传播，发现了表示崩溃现象和对特定标记的敏感性丧失，并提供了简单的解决方案。

Jun, 2024