ACLMay, 2019

偏输入基准的误导性失败

TL;DR通过部分输入基线(如 SNLI 的假设模型或 VQA 的问题模型)确定数据集难度并消除注释伪装,但失败并不意味着数据集中没有伪装,因此我们设计了人工数据集,并在 SNLI 数据集中确定了这样的伪装,我们的工作为数据集的验证和创建提供了一个警示。