ACLSep, 2018

CoQA、SQuAD 2.0 和 QuAC 的定性比较

TL;DR本文比较了三个新的问答数据集:SQuAD 2.0、QuAC 和 CoQA,在新特性(如无法回答的问题、多轮交互和摘要回答)方面进行了比较,并展示了这些数据集提供了互补性的覆盖率,但在回答的摘要方面覆盖率较弱。作者表明,由于数据集的结构相似,可以很容易地将单个选取模型适应于任何数据集,并展示了 SQuAD 2.0 和 CoQA 上的改进基线结果。尽管相似,但在一个数据集上训练的模型对另一个数据集是无效的,但我们通过预训练找到了适量的性能提升。为了鼓励交互评估,我们在此 https URL 上公开了数据集转换的代码。