评估机器阅读理解数据集的基准测试能力

AAAINov, 2019

评估机器阅读理解数据集的基准测试能力

Assessing the Benchmarking Capacity of Machine Reading Comprehension Datasets

Saku Sugawara, Pontus Stenetorp, Kentaro Inui, Akiko Aizawa

TL;DR本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Abstract

Existing analysis work in machine reading comprehension (MRC) is largely concerned with evaluating the capabilities of systems. However, the capabilities of datasets are not assessed for benchmarking language und

machine reading comprehension datasets assessment ablation-based methodology language understanding benchmarking

发现论文，激发创造

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

阅读理解问题变得更容易的因素是什么？

通过研究机器阅读理解中问题的难易程度，分析数据集创建中的困难之处和基准模型的性能。在手动注释的问题样本中发现，较难的问题需要更多的知识推理和多句话推理技能，并且多选题需要更广泛的推理能力。这些结果表明，在机器阅读理解领域中的最新进展可能被高估。

Aug, 2018

通过了解所学来满足所需

通过评估模型的能力，并在此基础上基于模型状态提供适当的训练数据，我们设计了一个可解释和多维度的 MRC 模型能力评估框架，并开发了 CBBC 策略，实现了基于模型能力的训练，从而最大化数据价值和提高训练效率。实验表明，我们的方法显著提高了 MRC 任务的性能，$EM/F_1$ 最高可达到 11.22%/8.71%。

Mar, 2022

带信息搜索代理的交互式机器阅读理解

通过重新设计现有的机器阅读理解数据集，将其转化为互动、部分可观察的环境，加入上下文命令并训练模型，有望将模型扩展到面向 Web 级别的 QA 场景。

Aug, 2019

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

使用组合性解释来教授机器理解

本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法，同时提取结构化变量和规则，并组成神经模块作为下游 MRC 模型的训练实例的注释，使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上，使用 26 个解释进行监督训练，该方法实现了 70.14% 的 F1 得分，与使用 1100 个标记实例的普通监督学习相比，速度提高了 12 倍。

May, 2020

临床阅读理解：emrQA 数据集的全面分析

本论文深度分析医疗领域的机器阅读理解 (CliniRC) 任务，重点关注 emrQA 数据集的缺陷及性能，证明对于未来数据集的创建需考虑利用领域知识和通用性。

May, 2020