语法习得中的突然降低：MLM 中的相位转变和简化偏差

Sep, 2023

语法习得中的突然降低：MLM 中的相位转变和简化偏差

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs

Angelica Chen, Ravid Schwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra

TL;DR通过对屏蔽语言模型（MLMs）中的句法结构的演化进行分析，研究论文发现一种自然生成的属性 —— 句法关注结构（SAS），并证明这种属性对语法能力的发展具有因果关系。另外，研究还发现，SAS 在训练过程中会与其他有益特征和能力竞争，短暂抑制 SAS 可以提高模型质量，从而揭示了不利的简单偏见与可解释性突破训练动态之间的关系。

Abstract

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. In this paper, we present a case study of

interpretability research masked language models syntax acquisition syntactic attention structure linguistic capabilities

发现论文，激发创造

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

薛定谔树 -- 论语法与神经语言模型

本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Oct, 2021

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

在 Transformer NMT 中推广源语法知识是不必要的

本研究旨在通过使用 Transformer 模型和较大的语料库来提高源端句法知识的表征，并利用多任务学习进行数据操纵或使用专用模型组件。提供的结果表明，采用线性树而不是真实依赖得到的增益不是来自于语言知识的增加，而是由于在自注意矩阵上引起的某种简单的正则化效应。

Oct, 2019

使用知识蒸馏的可扩展语法感知语言模型

利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型，从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中，我们发现，尽管顺序 LSTM 比以前的报告要好得多，但我们提出的技术显著改善了这个基准值，产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性，甚至是在从大量数据中学习的模型中也如此。

Jun, 2019

自注意力能否强大到学会代码语法和语义？

本文研究了 CodeBERT 模型基于 AST 和静态分析，通过自我关注机制和 Masked Language Modelling（MLM）在令牌级别上学习代码语法和语义的能力，展示了其中自我关注机制在了解代码语法和语义方面的关键作用，并提出了一组任务来分析 CodeBERT 模型，同时，文章还提出了一种替代方法来预训练模型，充分利用当前的预训练策略，即 MLM，以学习代码语法和语义。

Dec, 2022

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

利用信息论探测套件，我们分析了 9 项任务，涵盖语法、语义和推理，在 2 百万次预训练步骤和 5 个种子中，识别了关键学习阶段，语法知识在全面训练的 0.5% 后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Oct, 2023

遮蔽语言建模和分布假设：有序词预训练对小型模型的影响

本文提出了一个新的解释：遮蔽语言模型 (MLM) 成功地解决了下游任务几乎完全归功于其建模更高阶词共现统计量的能力。

Apr, 2021

神经机器翻译的潜在词性序列

本文介绍一种新的基于 latent variable 的神经机器翻译模型 LaSyn，通过修改基于 transformer 的 NMT 系统并使用基于词性信息的神经期望最大化算法作为 latent sequences 的正则化方法，实现了对目标语言句子结构的有效和高效推理，从而提高了翻译的质量和多样性。

Aug, 2019