训练 Transformer 时打破对称性
本研究探讨了基于因果变换的语言模型(LMs),例如 GPT-3,需要某种形式的位置编码,例如位置嵌入。然而,我们发现在没有任何显式位置编码的情况下,这样的 LM 与标准模型仍然具有竞争力,这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明,这种模型通过网络获取隐含的绝对位置概念,从而有效弥补了缺失的信息。我们推测,因果注意力使模型能够推断每个令牌可以关注的前任数,从而近似其绝对位置。我们的发现表明,因果 LMs 除了显式的定位机制外,还可以从因果掩码的影响中推导出位置意识。
Mar, 2022
我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。
Oct, 2023
使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响,并且在资源匮乏的情况下,甚至可以将 BLEU 评分提高 3 个点。
Feb, 2020
本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响,发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加,并且没有位置编码的模型不能完成该任务,这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。
Nov, 2022
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
这篇论文研究了变形金刚网络的计算能力与图灵完备性,得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性,而某些残差连接是必需的结论,并通过机器翻译和合成任务的实验说明了结果的实际应用。
Jun, 2020
本文对一层 Transformer 进行了标记和区分性扫描,流程逐渐集中于某些关键词,然后通过控制两层之间的学习速率,达到了几乎固定的标记组合,验证了该算法的动态性。
May, 2023
Eigenformer 通过一种新颖的对 Laplacian 谱意识的注意机制,在一些标准的图神经网络基准数据集上实现了与最先进的 MP-GNN 体系结构和 Graph Transformers 相当的性能,甚至在某些数据集上超越了最先进的方法。此外,我们发现我们的架构在训练速度方面要快得多,可能是由于内在的图归纳偏置。
Jan, 2024
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023