首届中文机器阅读理解评测数据集
本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集,共包含近 20,000 个人类专家在维基百科段落中标注的真实问题,并发布了 CMRC 2018 的评估工作坊,旨在进一步推进中文机器阅读理解研究。
Oct, 2018
本文提出了一个新的任务 —— 句子填空式机器阅读理解,并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明,目前先进的预训练模型仍然无法达到人类的水平。
Apr, 2020
介绍 DRCD (Delta Reading Comprehension Dataset),这是一个面向开放领域的传统中文机器阅读理解数据集,包含来自 2,108 个维基百科文章的 10,014 段落和超过 30,000 个问题。我们构建了一个基准模型,其 F1 得分为 89.59%,人类表现的 F1 得分为 93.30%。
Jun, 2018
为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力,我们引入了一个真实的中文数据集 —— DuReader_robust,并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明,现有的 MRC 模型在挑战测试集上表现不佳。
Apr, 2020
介绍了 DuReader,它是一个新的大规模、开放领域的中文阅读理解数据集,它通过基于百度搜索和百度知道的问题和文献数据源,提供更多种类的问题注释,尤其是是非和观点问题,并且它是迄今为止最大的中文机器阅读理解数据集。此外,为了帮助社区取得更好的结果,DuReader 和基准系统已经在线发布,也组织了共同的竞赛。这份调研表明,人类的表现明显优于当前的基线系统,为研究人员提供了更多的研究机会和空间。
Nov, 2017
本篇论文主要对机器阅读理解(MRC)领域中的任务、数据集、评估指标等方面进行综合调研和分析,发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现,但与真实的人类阅读理解能力仍存在很大差距,因此提出了一些未来的研究方向和关键问题。
Jun, 2020
本论文介绍了一个多目标的医疗领域机器阅读理解任务,同时提出了一个高质量的医学数据集 CMedMRC,并提出了一种医疗 BERT 模型 CMedBERT,这种模型通过异构特征的动态融合和多任务学习策略将医学知识融入到预训练的语言模型中,实验表明 CMedBERT 通过融合上下文感知和知识感知的令牌表示,始终优于强基线。
Aug, 2020
提出了面向非英语语言的跨语言机器阅读理解(CLMRC)任务,通过双向 Bert 模型和回译方法,利用英语作为基础语言的大规模训练数据来提高低资源语言的阅读理解性能,并在中文机器阅读理解数据集上进行了实验,结果表明该方法能够显著提高机器阅读理解的性能。
Sep, 2019
XCMRC 是第一个公开的跨语言理解基准,用于测试机器的跨语言阅读理解能力,其中中英文是丰富资源的语言对,为了研究低资源的跨语言机器阅读理解,除定义通用的任务外,我们还限制了可使用的语言资源来定义了一项伪低资源任务。
Aug, 2019
本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果,结果表明,未来的研究可以提高越南 MRC 的准确度和性能。
Sep, 2020