机器阅读理解模型鲁棒性基准测试

ACLApr, 2020

机器阅读理解模型鲁棒性基准测试

Benchmarking Robustness of Machine Reading Comprehension Models

Chenglei Si, Ziqing Yang, Yiming Cui, Wentao Ma, Ting Liu...

TL;DR本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Abstract

machine reading comprehension (MRC) is an important testbed for evaluating models' natural language understanding (NLU) ability. There has been rapid progress in this area, with new models achieving impressive pe

machine reading comprehension natural language understanding adversarial attacks benchmarking robustness

发现论文，激发创造

利用对抗攻击揭示机器阅读理解模型中的统计偏差

本文研究了预训练语言模型在机器阅读理解任务中表现的问题，发现现有模型的性能存在统计偏差，提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。

May, 2021

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

DuReader_robust: 一个面向评估机器阅读理解在实际应用中健壮性和泛化性的中文数据集

为了验证机器阅读理解模型在现实世界应用中的鲁棒性和泛化能力，我们引入了一个真实的中文数据集 —— DuReader_robust，并从超敏、超稳定和泛化三个方面对 MRC 模型进行了综合评估。实验结果表明，现有的 MRC 模型在挑战测试集上表现不佳。

Apr, 2020

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023

机器阅读理解可解释性调查

本文系统评述了机器阅读理解中可解释性的基准和方法，并介绍了该领域中表示和推理挑战的演变以及解决这些挑战所采取的步骤。同时，我们还提出了评估解释性系统性能的方法，并确定了存在的开放性研究问题和未来工作的关键方向。

Oct, 2020

通过了解所学来满足所需

通过评估模型的能力，并在此基础上基于模型状态提供适当的训练数据，我们设计了一个可解释和多维度的 MRC 模型能力评估框架，并开发了 CBBC 策略，实现了基于模型能力的训练，从而最大化数据价值和提高训练效率。实验表明，我们的方法显著提高了 MRC 任务的性能，$EM/F_1$ 最高可达到 11.22%/8.71%。

Mar, 2022

多选阅读理解的多头注意力多任务学习

本文利用多任务学习在两种多项选择阅读理解任务（RACE 和 DREAM）上实现了新的 DREAM 任务的最新性能，其中运用了基于 Transformer 的模型，通过在上下文和问题 - 答案之间添加额外的多头注意力层来 fine-tune 模型。

Feb, 2020

机器阅读理解的对抗性域自适应

本研究提出了一种针对无监督域自适应机器阅读理解的方法，其中源域有大量标记数据，而目标域只有未标记数据。该方法使用敌对领域自适应框架（AdaMRC），生成虚拟问题并结合领域分类器进行压缩编码，经过对抗学习实现域不变表示学习，具有普适性、可以与预训练的大规模语言模型相结合，并可扩展到半监督学习。

Aug, 2019