ACLMay, 2018

用需要简单词汇推理的句子破解 NLI 系统

TL;DR我们创建了一个新的 NLI 测试集,展示了当前最先进模型在需要词汇和世界知识的推理方面存在的不足。这些新的例子比 SNLI 测试集更简单,包含的句子与训练集中的句子最多只相差一个单词。然而,对于在 SNLI 上训练的系统,在新的测试集上的表现明显更差,这表明这些系统在泛化能力上受到了限制,未能涵盖许多简单的推理。