Apr, 2020

DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

TL;DR为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力,我们引入了一个真实的中文数据集 —— DuReader_robust,并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明,现有的 MRC 模型在挑战测试集上表现不佳。