AAAINov, 2019

评估机器阅读理解数据集的基准测试能力

TL;DR本篇研究提出了一种半自动化的消融实验方法,通过检查即使除去与语言理解相关的特征后是否仍然能回答问题,来评估语言理解能力挑战数据集的性能,实验结果表明,很多问题并不需要语法复杂的推理,为了精准评估 MRC 数据集,需要在设计时额外注意。