EMNLPOct, 2020
从集体人类意见中我们能学到自然语言推理数据的什么?
What Can We Learn from Collective Human Opinions on Natural Language Inference Data?
Yixin Nie, Xiang Zhou, Mohit Bansal
TL;DR通过 ChaosNLI 数据集,该研究发现人们在 NLI 评估中存在高度的主观性,新颖度极强的数据集会导致现有模型表现不佳,并提出了考虑人类评价的分布的新评估指标。