EMNLPOct, 2019

BiPaR:小说多语言和跨语言阅读理解的双语平行数据集

TL;DR本研究提出了 BiPaR—— 一种双语平行小说式机器阅读理解 (MRC) 数据集,它是为支持多语言和跨语言阅读理解而开发的。BiPaR 具有好的问题前缀、答案类型多样性和问题与段落之间的关系多样性,需要核心指代消解、多句子推理和隐含因果关系等阅读理解技能。实验证明,强大的 BERT 模型在这个数据集上与人类之间的差距非常大,BiPaR 为小说的单语、多语和跨语言 MRC 提供了一个具有挑战性的试验平台。