变压器如何学习结构化数据：来自层次过滤的洞见

Aug, 2024

变压器如何学习结构化数据：来自层次过滤的洞见

How transformers learn structured data: insights from hierarchical filtering

Jerome Garnier-Brun, Marc Mézard, Emanuele Moscato, Luca Saglietti

TL;DR本研究解决了生成模型在树形结构上序列的层次过滤问题，推动了对数据中位置相关性的控制。通过创新的方法，证实了传统编码器变压器架构能够有效实施最佳信念传播算法，从而在根分类和掩码语言建模任务中实现显著成果，表明变压器在训练过程中逐步整合更大距离的相关性。

Abstract

We introduce a Hierarchical Filtering procedure for Generative Models of sequences on trees, enabling control over the range of positional correlations in the data. Leveraging this controlled setting, we provide

发现论文，激发创造

无监督分析的层次Transformer

本文扩展了转换器模型，使其能够学习自然语言中的层次结构，得到了较好的无监督语法分析结果。

Mar, 2020

H-Transformer-1D: 序列快速一维分层注意力

本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在Long Range Arena基准测试上平均提高了6个百分点，在One-Billion Word数据集上也取得了新的SOTA测试困惑度。

Jul, 2021

仍可学习位置信息的Transformer语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的LM与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果LMs除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

Transformer中的信号传播：理论视角和秩崩溃的作用

探究在Transformer的自我注意层中可能发生的排名坍塌现象及其影响，发现其会导致查询和键的梯度消失，导致训练受阻，但可以通过适当的深度相关的残差分支缩放来预防，而特定的架构超参数会导致查询和值的梯度的不均衡，这解释了为什么在Transformers的优化中广泛使用自适应方法。

Jun, 2022

基于结构化任务训练的Transformer模型的系统泛化和涌现结构

该文探讨了怎样使用Transformer网络在算法任务中表现良好，展示了多层transformer网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

利用树状投影表征Transformer中的固有组合性

研究表明，当进行语言数据训练时，transformers是学习一种简单的基于树状结构的计算过程，可以解释像人类语言这样的复合意义系统，这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法，可以在任何transformer和树状结构之间建立功能投影，而三项不同的任务实验表明，在一些情况下，可无监督地恢复相同的树状结构，这些树状结构有助于模型的行为改进。

Nov, 2022

香草Transformer中的分层结构理解

本文研究了神经序列和转换语言模型的层次结构泛化能力，发现通过长时间训练，模型能够学习到层次结构的一般性，对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。

May, 2023

高效远程Transformer：你需要参与更多，但不一定是每一层

提出了一种名为MASFormer的变种Transformer模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的Transformer模型相媲美的性能，同时显著降低计算成本（多达75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

借助马尔科夫链的注意力：通过马尔科夫链分析Transformer的原则框架

通过马尔可夫链的角度研究变压器的序列建模能力，并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。

Feb, 2024

无需种植树木的语法学习：理解变换器何时以及何种方式实现分层普遍化

透过对自然语言数据训练的Transformer模型的研究和实验证明，具备语言建模目标的Transformer模型更容易学习和推广层次结构，并在处理无法预见的句法结构的句子时表现优异。

Apr, 2024