ACLMay, 2020

语言模型和人类对 Winograd Schema 扰动的敏感性

TL;DR大规模预训练语言模型是最近在 Winograd Schema Challenge 上表现提高的主要驱动力,但我们通过一个新的诊断数据集表明,这些模型对最小程度影响人类理解的 Winograd 例子的语言扰动是敏感的。我们的结果突出了人类和语言模型之间的有趣差异:语言模型对数字或性别的替换和同义词置换更敏感,而人类在其预测中更稳定和一致,维持更高的绝对性能,在非联想实例上表现更好。总体而言,人类比开箱即用的模型更正确,在错误的原因上有时模型是正确的。最后,我们展示了在大规模的专门任务数据集上微调可以解决这些问题。