Sep, 2023

评估 Transformer 学习轻度语境敏感语言的能力

TL;DR尽管 Transformer 在自然语言处理任务中表现良好,但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力,发现它们对未见过的分布数据具有良好的泛化能力,但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明,学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为,这可能有助于模型解决这些语言。