CJRC: 一个可靠的人工标注中文司法阅读理解基准数据集

Dec, 2019

CJRC: 一个可靠的人工标注中文司法阅读理解基准数据集

CJRC: A Reliable Human-Annotated Benchmark DataSet for Chinese Judicial Reading Comprehension

Xingyi Duan, Baoxin Wang, Ziyue Wang, Wentao Ma, Yiming Cui...

TL;DR本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集，基于 Bert 和 BiDAF 构建了两个强基准模型，实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。

Abstract

We present a chinese judicial reading comprehension (CJRC) dataset which contains approximately 10K documents and almost 50K questions with answers. The documents come from judgment documents and the questions ar

chinese judicial reading comprehension dataset element extraction machine reading comprehension bert

发现论文，激发创造

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

中文机器阅读理解的跨度抽取数据集

本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集，共包含近 20,000 个人类专家在维基百科段落中标注的真实问题，并发布了 CMRC 2018 的评估工作坊，旨在进一步推进中文机器阅读理解研究。

Oct, 2018

DuReader: 来自真实应用场景的中文机器阅读理解数据集

介绍了 DuReader，它是一个新的大规模、开放领域的中文阅读理解数据集，它通过基于百度搜索和百度知道的问题和文献数据源，提供更多种类的问题注释，尤其是是非和观点问题，并且它是迄今为止最大的中文机器阅读理解数据集。此外，为了帮助社区取得更好的结果，DuReader 和基准系统已经在线发布，也组织了共同的竞赛。这份调研表明，人类的表现明显优于当前的基线系统，为研究人员提供了更多的研究机会和空间。

Nov, 2017

DRCD：一个中文机器阅读理解数据集

介绍 DRCD (Delta Reading Comprehension Dataset)，这是一个面向开放领域的传统中文机器阅读理解数据集，包含来自 2,108 个维基百科文章的 10,014 段落和超过 30,000 个问题。我们构建了一个基准模型，其 F1 得分为 89.59%，人类表现的 F1 得分为 93.30%。

Jun, 2018

ReCO：一个关于观点的大规模中文阅读理解数据集

本文介绍了以意见为主题的 ReCO 数据集，该数据集是目前中文阅读理解数据集中最大的，其中需要进行因果推理、逻辑推理等各种推理技能。与传统数据集不同的是，ReCO 除了提供上下文段落外，还提供支持证据，这为机器阅读理解提供了很好的挑战。

Jun, 2020

JEC-QA：一个法律领域的问答数据集

我们制作了 JEC-QA，这是中国国家司法考试中收集的最大的法律领域问答数据集，它要求逻辑推理能力用以解答问题。我们已经发布了该数据集和我们的基线模型，以帮助提高机器理解模型的推理能力。

Nov, 2019

一份中文机器阅读理解句子填空数据集

本文提出了一个新的任务 —— 句子填空式机器阅读理解，并构建了一个 Chinese dataset called CMRC 2019 来衡量该任务的难度。结果表明，目前先进的预训练模型仍然无法达到人类的水平。

Apr, 2020

DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力，我们引入了一个真实的中文数据集 —— DuReader_robust，并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明，现有的 MRC 模型在挑战测试集上表现不佳。

Apr, 2020

探究先验知识在具有挑战性的中文机器阅读理解中的应用

本文介绍了第一个自由形式的中文机器阅读理解数据集 (C^3) ，包含 13,369 个文件和 19,577 个来自作为第二语言的汉语考试中所收集的自由形式的多项选择问题。该文提供了大量先前知识的分析和拥有丰富先前知识的实际应用的相关问题的评估。虽然实施了基于规则和神经网络的各种方法，但最佳模型 (68.5%) 和人类读者 (96.0%) 之间还有显著的性能差距，特别是对需要先前知识的问题。同时也研究了关于困扰者合理性和数据增强的效应，可以看出回答 86.8% 的问题需要对文档中的知识和超出文档范畴的领域内知识的理解。我们期望 C^3 能够为现有系统提出巨大挑战，并成为研究如何更好地利用各种先前知识来更好地理解给定的书面或口头定向文本的平台。

Apr, 2019

知识赋能的中文医学阅读理解表征学习：任务、模型和资源

本论文介绍了一个多目标的医疗领域机器阅读理解任务，同时提出了一个高质量的医学数据集 CMedMRC，并提出了一种医疗 BERT 模型 CMedBERT，这种模型通过异构特征的动态融合和多任务学习策略将医学知识融入到预训练的语言模型中，实验表明 CMedBERT 通过融合上下文感知和知识感知的令牌表示，始终优于强基线。

Aug, 2020