EMNLPMay, 2020

基于常识公理评估鲁棒推理能力的 RICA

TL;DR我们提出了一项名为 RICA 的挑战,即基于常识公理的鲁棒推理能力,评估文本扰动下对强大的常识推理的鲁棒性。我们使用常识知识库和两种不同的评估设置开发了一个系统性和可扩展的程序来生成数据,并进行了广泛的实验表明,预训练语言模型在该零 - shot 设置下的表现不如随机猜测,并且对统计偏见的影响很大,也不具有扰动攻击的鲁棒性。我们的大规模基准测试暴露了预训练语言模型与人类语言理解的显著差距,并为模型提供了证明常识的新挑战。