优化语言模型的目标语法评估

ACLApr, 2021

Refining Targeted Syntactic Evaluation of Language Models

Benjamin Newman, Kai-Siang Ang, Julia Gong, John Hewitt

TL;DR通过手工创建的最小句对，Targeted syntactic evaluation of subject-verb number agreement in English (TSE) 评估语言模型的句法知识，方法可以评估语言模型是否将每个语法句子评为比其非语法对应句子更可能。我们认为当前的 TSE 实现不直接捕捉这两个目标，并提出了新的度量标准，分别捕捉每个目标。在我们的度量标准下，我们发现 TSE 高估了语言模型的系统性，但模型在预测上下文中可能性最大的动词时得分高达 40％。

Abstract

Targeted syntactic evaluation of subject-verb number agreement in English (TSE) evaluates language models' syntactic knowledge using hand-crafted minimal pairs of sentences that differ only in the main verb's con

syntactic evaluation language models subject-verb agreement systematicity verbs

发现论文，激发创造

面向目标的语法评估语言模型

该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明，在众多句子变体中，LSTM 语言模型的准确性较差，而使用句法目标的多任务训练可以提高模型的准确性，但模型仍存在较大的进步空间。

Aug, 2018

通过语法错误检测探索针对性的句法知识

本研究旨在利用语法错误检测作为一种诊断探针来评估预训练语言模型的令牌级上下文表示对主谓一致的了解程度，并评估了来自五个预训练语言模型的上下文表示。研究者发现，掩码语言模型线性编码了与 SVA 错误检测相关的信息，而自回归模型的表现与我们的基准线持平，但是当探针在不同的训练集上进行训练并在不同的句法结构上进行评估时，我们也观察到表现上的差异。

Oct, 2022

神经语言模型中语法一致机制的因果分析

通过因果中介分析方法研究预训练神经语言模型，揭示模型在困难情境下表现主语 - 谓语服务一致性的机制，研究发现模型的偏好程度及神经元对于主语 - 谓语一致性处理在语法结构不同的句子中存在相似性和差异性，同时表明了不同体系结构和规模的语言模型的相似性和差异性，以及主语 - 谓语一致性生成的两个不同机制。

Jun, 2021

跨语言句法评估词预测模型

通过多语言的句法评估套件 CLAMS，调查神经词语预测模型在各种语言中学习语法的能力，结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度，而在其他方面的一致性准确率较低，多语言模型通常表现不如单语模型。

May, 2020

BERT 是否真的赞同？对语法任务上词汇依赖的精细分析

该研究评估了基于 Transformer 的神经语言模型在语法识别任务中的一般性能力，特别是在处理句子结构和词汇形态方面的通用表现，描述了在有吸引因素的情况下，词汇独立的句法泛化失败的情况。

Apr, 2022

基于分类的质量评估：用于实际应用的小型高效模型

我们研究了句子级机器翻译的质量估计 (QE) 问题，发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题，而基于分类的方法可以更好地反映他们在实际应用中的性能表现。

Sep, 2021

汉语语言模型中语法知识的受控评估

我们研究了结构化监督在汉语中的效果，结果表明结构化监督可以帮助语言模型学习句法和语义关系，并且在低数据情况下表现出更好的性能。

Sep, 2021

动词语义学与词汇选择

本文关注计算机系统中动词的语义表示及其对机器翻译中词汇选择问题的影响，提出了一种新的表示模式，与基于知识的机器翻译方法（KBMT）密切相关，并可作为现有系统的一个独立组件。此方案表现出能够对不精确匹配的情况正确地进行词汇选择。

Jun, 1994

多语言语言模型中的句法一致性神经元因果分析

该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动，并观察模型主谓一致概率的效果，发现了受语法一致性影响的神经元的分布情况，语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。

Oct, 2022

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022