ACLApr, 2021

优化语言模型的目标语法评估

TL;DR通过手工创建的最小句对,Targeted syntactic evaluation of subject-verb number agreement in English (TSE) 评估语言模型的句法知识,方法可以评估语言模型是否将每个语法句子评为比其非语法对应句子更可能。我们认为当前的 TSE 实现不直接捕捉这两个目标,并提出了新的度量标准,分别捕捉每个目标。在我们的度量标准下,我们发现 TSE 高估了语言模型的系统性,但模型在预测上下文中可能性最大的动词时得分高达 40%。