训练 Transformer 时打破对称性

Feb, 2024

Breaking Symmetry When Training Transformers

Chunsheng Zuo, Michael Guerzhoy

TL;DR通过研究我们发现，Transformer 架构在没有位置编码和因果注意机制之一的情况下，对于输入令牌 $n+1$ 的预测对于输入令牌 $1, 2, ..., n-1$ 的排列是不变的，而通常情况下，两种机制都被采用并破坏了对输入令牌的对称性。最近已经证明可以在没有位置编码的情况下训练 Transformer，这必须依靠因果注意机制来实现。本文详细阐述了因果连接机制必须负责 Transformer 能够模拟有序输入序列的论点，并提供了这一现象的证据。

Abstract

As we show in this paper, the prediction for output token $n+1$ of transformer architectures without one of the mechanisms of positional encodings and →

transformer architectures positional encodings causal attention order modeling residual connections

发现论文，激发创造

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

基于梯度下降的 Transformer 网络学习因果结构

通过梯度下降优化算法，变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图，从而学习了因果结构。

Feb, 2024

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

关于 Transformer 的计算能力及其对序列建模的启示

这篇论文研究了变形金刚网络的计算能力与图灵完备性，得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性，而某些残差连接是必需的结论，并通过机器翻译和合成任务的实验说明了结果的实际应用。

Jun, 2020

扫描与截屏：理解单层 Transformer 的训练动态和令牌组成

本文对一层 Transformer 进行了标记和区分性扫描，流程逐渐集中于某些关键词，然后通过控制两层之间的学习速率，达到了几乎固定的标记组合，验证了该算法的动态性。

May, 2023

无位置编码的图形变换器

Eigenformer 通过一种新颖的对 Laplacian 谱意识的注意机制，在一些标准的图神经网络基准数据集上实现了与最先进的 MP-GNN 体系结构和 Graph Transformers 相当的性能，甚至在某些数据集上超越了最先进的方法。此外，我们发现我们的架构在训练速度方面要快得多，可能是由于内在的图归纳偏置。

Jan, 2024

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023