论 Transformer 识别形式语言的能力和限制

EMNLPSep, 2020

论 Transformer 识别形式语言的能力和限制

On the Ability and Limitations of Transformers to Recognize Formal Languages

Satwik Bhattamishra, Kabir Ahuja, Navin Goyal

TL;DR本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力，并探讨了其中各组件的作用，发现相比于 LSTMs，在某些行为建模上有一定优势，同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。

Abstract

transformers have supplanted recurrent models in a large number of nlp tasks. However, the differences in their abilities to model different syntactic properties remain largely unknown. Past works suggest that LS

transformers nlp syntactic properties counter languages self-attention mechanism

发现论文，激发创造

评估 Transformer 学习轻度语境敏感语言的能力

尽管 Transformer 在自然语言处理任务中表现良好，但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力，发现它们对未见过的分布数据具有良好的泛化能力，但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明，学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为，这可能有助于模型解决这些语言。

Sep, 2023

Transformer 可以表示 $n$-gram 语言模型

该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系，通过分析机器学习模型的概率表示能力，提供了对 Transformer 语言模型代表概率分布的机制的初步认识。

Apr, 2024

Transformer 模型中的简洁性偏好及其学习稀疏布尔函数能力

本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究，发现 Transformers 在形式语言的建模上相对较弱，但其在归纳偏差方面与 recurrent models 存在差异，可解释其在泛化性能方面表现优异。

Nov, 2022

Transformers 作为正规语言的识别器：表达能力调查

通过将问题视为形式语言，研究人员在调查变压器能够解决和不能解决的理论问题方面取得了显著进展，这有助于比较变压器与其他模型以及不同变压器变体在各种任务中的性能，并提供了一个统一的框架来协调看似矛盾的研究结果。

Nov, 2023

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

评估 LSTM 模型在形式语言中的泛化能力

本研究对长短期记忆网络的归纳学习能力进行了实证评估，发现在不同的训练设置下模型性能存在显著差异，并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。

Nov, 2018

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

神经语言模型解剖

通过简洁明了的数学框架和清晰的图示，详细解释了神经语言模型的主要类型，包括 BERT 和 GPT2，同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。

Jan, 2024

通过 LSTM 与 Transformer 学习有界无上下文语法：区别与解释

研究比较了 LSTM 和 Transformer 的潜在空间分解模式，进一步解释了 Transformer 在自然语言处理任务中比 LSTM 有更好的表述能力

Dec, 2021