ACLApr, 2021

如何改进自然语言理解基准测试?

TL;DR该论文提出了评估自然语言理解任务的四个标准,并指出目前大多数现有标准都无法满足这些标准,而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统,需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。