EMNLPOct, 2020

从集体人类意见中我们能学到自然语言推理数据的什么?

TL;DR通过 ChaosNLI 数据集,该研究发现人们在 NLI 评估中存在高度的主观性,新颖度极强的数据集会导致现有模型表现不佳,并提出了考虑人类评价的分布的新评估指标。