为什么敏感函数对 Transformer 较难?
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
Mar, 2024
本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究,发现 Transformers 在形式语言的建模上相对较弱,但其在归纳偏差方面与 recurrent models 存在差异,可解释其在泛化性能方面表现优异。
Nov, 2022
本研究通过向 Transformer 架构添加两种归纳学习偏差来探究个体的外推能力,结果表明,这些偏差对大型神经网络模型有帮助,也揭示了人类的归纳性学习偏差的类型。
Apr, 2023
该研究研究了 Transformer 网络在接受依赖于单一输入符号的语言中的限制,并通过使用 PARITY 和 FIRST 语言作为例子,证明了三种克服该限制的方法。
Feb, 2022
在无限过参数化的高斯过程极限中,我们研究了 Transformer 中的归纳偏置,并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用,我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块,并解决了模型的极限,包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中,可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后,我们认为 WikiText 数据集确实具有一定的置换对称度。
Feb, 2024
本研究证明了计算精度对数与输入标记数量相关的 transformer 神经网络可以通过常深度对数空间均匀阈值电路进行模拟,并且从复杂性理论的角度提供了关于 transformer 网络计算力的见解,这表明如果 L≠P,那么 transformer 神经网络甚至无法精确解决线性等式或检查产生空符号的任意上下文无关语法的成员身份,因此研究也推测性地引入了一种基本的并行性权衡观念:与 transformer 一样并行化的任何模型体系结构都将遵守类似的限制,这暗示了放大模型范式的潜在固有弱点。
Jul, 2022
Transformers 在自然语言处理中变得至关重要,在机器翻译和摘要等应用中取得了显著成功。然而,与现有观点相反,本研究发现 Transformers 在可靠地逼近连续函数方面存在困难,依赖于具有较大区间的分段常数逼近。通过理论分析和实验证据,我们全面调查了这一问题并揭示了 Transformers 的限制根源,凸显了对其能力的精确理解的重要性。
Feb, 2024
尽管 Transformer 在自然语言处理任务中表现良好,但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力,发现它们对未见过的分布数据具有良好的泛化能力,但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明,学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为,这可能有助于模型解决这些语言。
Sep, 2023
本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。
Sep, 2020
研究信息在解码器单独的 Transformer 模型中的传播,发现了表示崩溃现象和对特定标记的敏感性丧失,并提供了简单的解决方案。
Jun, 2024