ACLApr, 2019

探究先验知识在具有挑战性的中文机器阅读理解中的应用

TL;DR本文介绍了第一个自由形式的中文机器阅读理解数据集 (C^3) ,包含 13,369 个文件和 19,577 个来自作为第二语言的汉语考试中所收集的自由形式的多项选择问题。该文提供了大量先前知识的分析和拥有丰富先前知识的实际应用的相关问题的评估。虽然实施了基于规则和神经网络的各种方法,但最佳模型 (68.5%) 和人类读者 (96.0%) 之间还有显著的性能差距,特别是对需要先前知识的问题。同时也研究了关于困扰者合理性和数据增强的效应,可以看出回答 86.8% 的问题需要对文档中的知识和超出文档范畴的领域内知识的理解。我们期望 C^3 能够为现有系统提出巨大挑战,并成为研究如何更好地利用各种先前知识来更好地理解给定的书面或口头定向文本的平台。