EMNLPOct, 2019
MRQA 2019 共享任务:阅读理解通用性评估
MRQA 2019 Shared Task: Evaluating Generalization in Reading Comprehension
Adam Fisch, Alon Talmor, Robin Jia, Minjoon Seo, Eunsol Choi...
TL;DR在 Machine Reading for Question Answering (MRQA) 2019 shared task 中,我们通过将 18 个不同的 question answering 数据集调整并统一格式来评估阅读理解系统的泛化能力。参赛的 10 个团队尝试了不同的想法,如数据采样、多任务学习、对抗训练和集成学习等,在 12 个被隐藏的测试数据集上,最好的系统平均 F1 分数为 72.5,比基于 BERT 的初始得分高了 10.7 个绝对点。