多语言语言模型中的句法一致性神经元因果分析

Oct, 2022

多语言语言模型中的句法一致性神经元因果分析

Causal Analysis of Syntactic Agreement Neurons in Multilingual Language Models

Aaron Mueller, Yu Xia, Tal Linzen

TL;DR该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动，并观察模型主谓一致概率的效果，发现了受语法一致性影响的神经元的分布情况，语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。

Abstract

Structural probing work has found evidence for latent syntactic information in pre-trained language models. However, much of this analysis has focused on monolingual models, and analyses of multilingual models have employed correlational methods that are confounded by the choice of pro

language models multilingualism syntactic agreement neuron activations masked language models

发现论文，激发创造

神经语言模型中语法一致机制的因果分析

通过因果中介分析方法研究预训练神经语言模型，揭示模型在困难情境下表现主语 - 谓语服务一致性的机制，研究发现模型的偏好程度及神经元对于主语 - 谓语一致性处理在语法结构不同的句子中存在相似性和差异性，同时表明了不同体系结构和规模的语言模型的相似性和差异性，以及主语 - 谓语一致性生成的两个不同机制。

Jun, 2021

同一神经元，不同语言：探究多语言预训练模型中的形态语法

该研究采用神经元级别探测器，在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究，并发现了多语言预训练模型的跨语言重叠是显著的，但其范围可能因语言接近性和预培训数据的大小而异，支持其能够对语法进行语言通用的抽象。

May, 2022

通过语法错误检测探索针对性的句法知识

本研究旨在利用语法错误检测作为一种诊断探针来评估预训练语言模型的令牌级上下文表示对主谓一致的了解程度，并评估了来自五个预训练语言模型的上下文表示。研究者发现，掩码语言模型线性编码了与 SVA 错误检测相关的信息，而自回归模型的表现与我们的基准线持平，但是当探针在不同的训练集上进行训练并在不同的句法结构上进行评估时，我们也观察到表现上的差异。

Oct, 2022

跨语言句法评估词预测模型

通过多语言的句法评估套件 CLAMS，调查神经词语预测模型在各种语言中学习语法的能力，结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度，而在其他方面的一致性准确率较低，多语言模型通常表现不如单语模型。

May, 2020

面向目标的语法评估语言模型

该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明，在众多句子变体中，LSTM 语言模型的准确性较差，而使用句法目标的多任务训练可以提高模型的准确性，但模型仍存在较大的进步空间。

Aug, 2018

Galician BERT 模型在句法能力与训练时间交互界面的计算心理语言学评估

本文探讨 Transformer 模型在捕捉加利西亚语中的主谓和名词形容词一致性依赖方面的能力，并通过一系列词语预测实验来评估加利西亚语的现有单语和多语模型的性能，并对不同训练点上两个单语 BERT 模型的不同成就程度进行比较，得出了所需的训练步骤的有趣见解。

Jun, 2022

在多语言 BERT 中发现通用语法关系

本研究针对多语言 BERT 的序列到序列建模进行实验，证实其不需要训练就能够实现跨语言的转化，并提出一种无监督的分析方法，证明 Multilingual BERT 可以学习到一定的语言普遍规律。

May, 2020

语法何时在神经语言模型性能中发挥作用？来自 Dropout 探针的证据

语言模型中使用的语法信息可能存在多余编码，通过一种新的探针设计，可准确引导探针考虑嵌入中的所有语法信息，揭示语法在当前方法未能探测到的模型中的有效性，进而通过注入语法信息提高模型性能。

Apr, 2022

多语言递归神经网络中的跨语言句法转移理解

研究了现代神经语言模型的多语言训练中的字面表示空间和纯语法知识的共享，发现暴露我们的 LMs 与相关语言并不总是增加目标语言的语法知识，并且在语义转移的最佳条件下并不一定是语法转移的最佳条件。

Mar, 2020

多语言模型中的语言身份反事实检测

利用一个名为 AlterRep 的方法，运用因果分析技术对多语言模型的内部结构进行研究，发现大规模多语言模型中存在着既有语言特定的组件又有语言通用组件，并展示了反事实推理方法在多语言模型上的应用前景。

Oct, 2023