EMNLPApr, 2020

问答数据集让模型学到了什么?

TL;DR本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解,发现没有一个数据集能够具备全部实验的鲁棒性,并且发现了数据集和评估方法的不足,最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。