ACLNov, 2017

DuReader: 来自真实应用场景的中文机器阅读理解数据集

TL;DR介绍了 DuReader,它是一个新的大规模、开放领域的中文阅读理解数据集,它通过基于百度搜索和百度知道的问题和文献数据源,提供更多种类的问题注释,尤其是是非和观点问题,并且它是迄今为止最大的中文机器阅读理解数据集。此外,为了帮助社区取得更好的结果,DuReader 和基准系统已经在线发布,也组织了共同的竞赛。这份调研表明,人类的表现明显优于当前的基线系统,为研究人员提供了更多的研究机会和空间。