Transformer 模型中的简洁性偏好及其学习稀疏布尔函数能力
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
Mar, 2024
在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。
Feb, 2024
本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。
Sep, 2020
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与 Transformer 表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现 Transformer 学习起来更加高效。有趣的是,我们的结果表明,Transformer 可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了 LLMs(如 LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
Oct, 2023
本研究通过向 Transformer 架构添加两种归纳学习偏差来探究个体的外推能力,结果表明,这些偏差对大型神经网络模型有帮助,也揭示了人类的归纳性学习偏差的类型。
Apr, 2023
尽管 Transformer 在自然语言处理任务中表现良好,但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力,发现它们对未见过的分布数据具有良好的泛化能力,但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明,学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为,这可能有助于模型解决这些语言。
Sep, 2023
Transformers 在自然语言处理中变得至关重要,在机器翻译和摘要等应用中取得了显著成功。然而,与现有观点相反,本研究发现 Transformers 在可靠地逼近连续函数方面存在困难,依赖于具有较大区间的分段常数逼近。通过理论分析和实验证据,我们全面调查了这一问题并揭示了 Transformers 的限制根源,凸显了对其能力的精确理解的重要性。
Feb, 2024
通过探索 Transformer 模型的设计空间,我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力,并在各种复合任务中实现了比文献报道的更好的泛化结果,并在语义分析组合泛化基准(COGS)和字符串编辑操作组合基准(PCFG)中实现了最先进的结果。
Aug, 2021
这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性,并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论,同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。
Jun, 2024