EMNLPApr, 2020

分析数据集中的性能不稳定性诅咒:后果、来源和建议

TL;DR通过一项详尽的实证研究,我们发现自然语言推理和阅读理解分析数据集的最先进模型表现存在高度不稳定性,并展示了这种不稳定性的来源,提出了应对方案及未来研究的建议。