评估 Transformer 学习轻度语境敏感语言的能力

Sep, 2023

评估 Transformer 学习轻度语境敏感语言的能力

Evaluating Transformer's Ability to Learn Mildly Context-Sensitive Languages

Shunjie Wang, Shane Steinert-Threlkeld

TL;DR尽管 Transformer 在自然语言处理任务中表现良好，但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力，发现它们对未见过的分布数据具有良好的泛化能力，但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明，学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为，这可能有助于模型解决这些语言。

Abstract

Despite that transformers perform well in NLP tasks, recent studies suggest that self-attention is theoretically limited in learning even some regular and context-free languages. These findings motivated us to th

transformers self-attention mildly context-sensitive languages lstms dependency relations

发现论文，激发创造

论 Transformer 识别形式语言的能力和限制

本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力，并探讨了其中各组件的作用，发现相比于 LSTMs，在某些行为建模上有一定优势，同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。

Sep, 2020

堆栈注意力的 Transformer

自然语言被认为是（轻度）上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制，我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合，对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些，但不是全部确定性的无上下文语言。

May, 2024

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习

为了理解上下文学习现象，最近的研究采用了一个简化的实验框架，并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确，而这些能力在基于注意力模型中是否有限制也不清楚。此外，还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型（LLMs）。在本研究中，我们通过以下方式来一步步回答这些问题：（a）在一个包含各种布尔函数类的测试集上，我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配，但在更复杂的任务上性能下降。此外，我们发现某些无注意力模型在一系列任务上与 Transformer 表现（几乎）一致；（b）当提供一个教学序列，即一组通过示例唯一标识一个函数类的示例时，我们发现 Transformer 学习起来更加高效。有趣的是，我们的结果表明，Transformer 可以学习实现两个不同的算法来解决一个任务，并且可以根据上下文示例的顺序自适应地选择更加高效的算法；（c）最后，我们展示了 LLMs（如 LLaMA-2、GPT-4）可以与最近邻基线在保证不在其训练集中的预测任务上竞争。

Oct, 2023

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

非线性变压器的高效上下文学习训练：理论学习和泛化分析

通过理论分析，我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力，重点关注一组二分类任务，研究了各种因素对 ICL 泛化性能的影响，探讨了不同组件对 ICL 性能的贡献，并首次理论分析了模型修剪对 ICL 性能的影响，证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响，并通过数值实验验证了这些理论结果。

Feb, 2024

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024