面向目标的语法评估语言模型

EMNLPAug, 2018

Targeted Syntactic Evaluation of Language Models

Rebecca Marvin, Tal Linzen

TL;DR该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明，在众多句子变体中，LSTM 语言模型的准确性较差，而使用句法目标的多任务训练可以提高模型的准确性，但模型仍存在较大的进步空间。

Abstract

We present a dataset for evaluating the grammaticality of the predictions of a language model. We automatically construct a large number o

language model dataset grammaticality syntactic objective lstms

发现论文，激发创造

跨语言句法评估词预测模型

通过多语言的句法评估套件 CLAMS，调查神经词语预测模型在各种语言中学习语法的能力，结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度，而在其他方面的一致性准确率较低，多语言模型通常表现不如单语模型。

May, 2020

循环神经网络语言模型总是学习类似于英语的关系从句连接

通过使用模糊性相对子句附加来扩展语言模型在多重同时有效解释的情况下的评估方法。我们比较了英语和西班牙语模型的表现，以展示 RNN LMs 中的非语言偏见优势重叠在英语而非西班牙语的句法结构上。因此，英语模型可能具有类似于人类的句法偏好，而在西班牙语上训练的模型无法获得类似的人类句法偏好。

May, 2020

优化语言模型的目标语法评估

通过手工创建的最小句对，Targeted syntactic evaluation of subject-verb number agreement in English (TSE) 评估语言模型的句法知识，方法可以评估语言模型是否将每个语法句子评为比其非语法对应句子更可能。我们认为当前的 TSE 实现不直接捕捉这两个目标，并提出了新的度量标准，分别捕捉每个目标。在我们的度量标准下，我们发现 TSE 高估了语言模型的系统性，但模型在预测上下文中可能性最大的动词时得分高达 40％。

Apr, 2021

利用多任务学习探索 RNN 的句法能力

本论文探究了 RNN 在句法能力、主谓一致性任务方面的表现，并测试了多任务训练是否能够提高其性能，结果表明多任务训练可以提高 RNN 的表现，尤其在复杂句子方面。此外，多任务训练还可以向语言模型中注入语法知识。

Jun, 2017

评估 LSTMs 学习句法敏感依赖能力

本研究使用长短期记忆神经网络（LSTM）来探讨其在语言处理中捕捉句法结构的能力，结果表明，在受到显式语法目标的监督时，LSTM 可以捕捉相当数量的语法结构，但是需要更强的架构来进一步减少错误，且语言建模信号不足以捕捉句法敏感的依赖关系，需要更直接的监督。

Nov, 2016

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020

语言模型接受度判断对上下文敏感性不强

本文研究了语言模型对有不同语境且违反语法规则的句子的语法判断能力的鲁棒性，结果发现模型判断能力在线性语境下稳定，在和测试内容有相同句法结构的语境中不稳定，此外，文章还探究了模型训练时语境对语法判断的影响，并指出模型在不同语境下的表现是由其隐含的学习能力决定的。

Dec, 2022

神经语言模型中的语法推广的系统评估

我们对神经语言模型的句法知识进行了系统评估，发现模型架构的不同对句法泛化性能产生了显著影响，而不同数据集大小的影响相对较低。

May, 2020

汉语语言模型中语法知识的受控评估

我们研究了结构化监督在汉语中的效果，结果表明结构化监督可以帮助语言模型学习句法和语义关系，并且在低数据情况下表现出更好的性能。

Sep, 2021

神经语言模型作为心理语言学研究对象：句法状态的表征

本研究使用控制的心理语言学实验方法，研究神经网络语言模型对句法状态的递增表示程度，发现 LSTM 序列模型在训练大型数据集时能够对文本中的广泛句法状态进行有效的表示，而对小型数据集的训练效果不如递归神经网络 (RNNG)。

Mar, 2019