EMBRACE: 评估和修改以提升 RACE

May, 2023

EMBRACE: Evaluation and Modifications for Boosting RACE

Mariia Zyrianova, Dmytro Kalpakchi, Johan Boye

TL;DR本文针对英语的机器阅读理解中的 RACE 数据集进行了详细的测试和分析，评估了数据集中多项选择问题的难度，并对基准文本做了注释。研究发现多数多项选择问题未能满足阅读理解任务的基本要求，同时发现基准文本的位置分布存在偏差，这可能对多项选择问题的回答和生成模型的评估造成不利影响。

Abstract

When training and evaluating machine reading comprehension models, it is very important to work with high-quality datasets that are also representative of real-world reading comprehension tasks. This requirement includes, for instance, having questions that are based on texts of differ

machine reading comprehension race dataset multiple-choice questions evaluation bias

发现论文，激发创造

RACE: 大规模考试阅读理解数据集

RACE 是一个用于中学生阅读理解任务评估的新数据集，由近 28,000 个人类专家（英语教师）生成的近 100,000 个问题组成，涵盖了各种主题，特别是对推理的要求比其他基准数据集要高，是研究和评估机器理解的有价值的资源。

Apr, 2017

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

EQG-RACE: 考试题类型的问题生成

本研究提出一种基于 RACE 数据集的创新型考试问答生成方法 (EQG-RACE)，其利用了答案导向的图卷积网络来增强问答输入的表示，解决了已有问答生成技术中存在的因来自 Web 的偏向性和不自然语言 sources 导致的问题。实验结果表明 EQG-RACE 性能卓越，为后续相关研究提供了新的基准。

Dec, 2020

像教育专家一样提问：自动化生成基于真实考试数据的问答配对

本文介绍了一个针对实际考试数据的新的统一框架，通过自动生成关键词，用多智能体通信模型生成和优化问题和关键词，然后应用模型生成的问题和关键词指导答案生成，从而使问题答案对生成任务取得了显著突破。

Sep, 2021

多项选择阅读理解的协同匹配模型

本文提出一种新的共同匹配方法来解决多选阅读理解问题，该方法同时建模一个段落是否匹配一个问题和一个候选答案，在 RACE 数据集上的实验结果表明我们的方法达到了最先进的性能。

Jun, 2018

阅读理解问题变得更容易的因素是什么？

通过研究机器阅读理解中问题的难易程度，分析数据集创建中的困难之处和基准模型的性能。在手动注释的问题样本中发现，较难的问题需要更多的知识推理和多句话推理技能，并且多选题需要更广泛的推理能力。这些结果表明，在机器阅读理解领域中的最新进展可能被高估。

Aug, 2018

BERT 从多项选择阅读理解数据中学到了什么？

通过对多选阅读理解数据集进行实验，本文发现：1）BERT 模型主要是依靠关键字来进行答案预测，而不是通过语义理解和推理；2）BERT 模型不需要正确的句法信息来解决任务；3）这些数据集中存在着一些人工痕迹，即使没有完整上下文也可以解决任务。

Oct, 2019

CamChoice：多项选择题和候选答案分布的语料库

本文介绍 CamChoice 数据集作为一个理解多项选择问卷，以实现自动测试开发的效率，并介绍评估指标，以便于检测选项中的低效信息。

Jun, 2023