DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

Apr, 2020

DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

DuReader_robust: A Chinese Dataset Towards Evaluating Robustness and Generalization of Machine Reading Comprehension in Real-World Applications

PDF

Hongxuan Tang, Hongyu Li, Jing Liu, Yu Hong, Hua Wu...

TL;DR为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力，我们引入了一个真实的中文数据集 —— DuReader_robust，并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明，现有的 MRC 模型在挑战测试集上表现不佳。

Abstract

machine reading comprehension (MRC) is a crucial task in natural language processing and has achieved remarkable advancements. However, most of the neural MRC models are still far from robust and fail to generalize well in real-world applications. In order to comprehensively verify the

machine reading comprehension dureader_robust robustness generalization natural language processing

发现论文，激发创造

DuReader: 来自真实应用场景的中文机器阅读理解数据集

介绍了 DuReader，它是一个新的大规模、开放领域的中文阅读理解数据集，它通过基于百度搜索和百度知道的问题和文献数据源，提供更多种类的问题注释，尤其是是非和观点问题，并且它是迄今为止最大的中文机器阅读理解数据集。此外，为了帮助社区取得更好的结果，DuReader 和基准系统已经在线发布，也组织了共同的竞赛。这份调研表明，人类的表现明显优于当前的基线系统，为研究人员提供了更多的研究机会和空间。

Nov, 2017

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

DRCD：一个中文机器阅读理解数据集

介绍 DRCD (Delta Reading Comprehension Dataset)，这是一个面向开放领域的传统中文机器阅读理解数据集，包含来自 2,108 个维基百科文章的 10,014 段落和超过 30,000 个问题。我们构建了一个基准模型，其 F1 得分为 89.59%，人类表现的 F1 得分为 93.30%。

Jun, 2018

中文机器阅读理解的跨度抽取数据集

本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集，共包含近 20,000 个人类专家在维基百科段落中标注的真实问题，并发布了 CMRC 2018 的评估工作坊，旨在进一步推进中文机器阅读理解研究。

Oct, 2018

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

一种以理解为导向的鲁棒机器阅读理解模型

提出了一种基于理解的机器阅读理解模型，通过自然语言推理模型、多头注意力方法以及多语言学习机制解决了过度敏感、过度稳定和泛化能力等问题，实验结果表明其在 DuReader 和两个 SQuAD 相关数据集上表现优异。

Jul, 2022

知识赋能的中文医学阅读理解表征学习：任务、模型和资源

本论文介绍了一个多目标的医疗领域机器阅读理解任务，同时提出了一个高质量的医学数据集 CMedMRC，并提出了一种医疗 BERT 模型 CMedBERT，这种模型通过异构特征的动态融合和多任务学习策略将医学知识融入到预训练的语言模型中，实验表明 CMedBERT 通过融合上下文感知和知识感知的令牌表示，始终优于强基线。

Aug, 2020

一份中文机器阅读理解句子填空数据集

本文提出了一个新的任务 —— 句子填空式机器阅读理解，并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明，目前先进的预训练模型仍然无法达到人类的水平。

Apr, 2020

BIOMRC: 一份用于生物医学机器阅读理解的数据集

介绍了 BIOMRC 大规模填空式生物医学 MRC 数据集及相关实验结果，新数据集噪声更小，任务也更可行，比以前的 BIOREAD 数据集表现更好。同时，介绍了一个基于 BERT 的最佳 MRC 模型，其准确率在某些实验中甚至超过了生物医学专家，并释放了三种规模的数据集和代码。

May, 2020