EMNLPOct, 2019

MRQA 2019 共享任务:阅读理解通用性评估

TL;DR在 Machine Reading for Question Answering (MRQA) 2019 shared task 中,我们通过将 18 个不同的 question answering 数据集调整并统一格式来评估阅读理解系统的泛化能力。参赛的 10 个团队尝试了不同的想法,如数据采样、多任务学习、对抗训练和集成学习等,在 12 个被隐藏的测试数据集上,最好的系统平均 F1 分数为 72.5,比基于 BERT 的初始得分高了 10.7 个绝对点。