未能回答问题对机器阅读理解模型鲁棒性的影响

ACLJan, 2023

未能回答问题对机器阅读理解模型鲁棒性的影响

The Impacts of Unanswerable Questions on the Robustness of Machine Reading Comprehension Models

Son Quoc Tran, Phong Nguyen-Thuan Do, Uyen Le, Matt Kretchmar

TL;DR本文研究了使用 SQuAD 2.0 中不可回答的问题对预先训练的语言模型进行微调，以提高其对抗攻击的鲁棒性。结果表明，在 SQuAD 2.0 上进行微调可以显著提高模型的鲁棒性，并且 SQuAD 2.0 还会影响模型学习到的内容。

Abstract

pretrained language models have achieved super-human performances on many machine reading comprehension (MRC) benchmarks. Nevertheless, their relative inability to defend against →

pretrained language models machine reading comprehension adversarial attacks squad 2.0 fine-tuning

发现论文，激发创造

知道你不知道什么：SQuAD 无法回答的问题

SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.

Jun, 2018

神经阅读理解过低敏感度

研究表明精度高的阅读理解模型倾向于依赖于所提供的有关输入中的模式，而对该模型进行噪声对抗性攻击、数据扩增和对抗性训练可以提高其鲁棒性和泛化性能，并改善在 train/evaluation distribution mismatch 时的结果。

Feb, 2020

FQuAD2.0：法语问答和知道你什么也不知道

FQuAD2.0 is a new dataset that extends FQuAD with unanswerable questions, enabling the training of French Question-Answering models that can distinguish unanswerable questions from answerable ones, achieving an F1 score of 82.3% on classification and 83% on Reading Comprehension tasks with a fine-tuned CamemBERT-large model.

Sep, 2021

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

为机器阅读理解学习提问无法回答的问题

本论文提出了一种用于机器阅读理解的数据增广技术，通过自动生成相关无法回答的问题并将其与包含答案的段落相配对，提出了一个序列模型，该模型有效地捕捉了问题和段落之间的交互。实验结果表明，该模型相对于序列到序列基线模型表现更好，同时将自动生成的无法回答的问题作为数据增广的一种方法，可以大幅提高 SQuAD 2.0 数据集上的 F1 值。

Jun, 2019

利用对抗攻击揭示机器阅读理解模型中的统计偏差

本文研究了预训练语言模型在机器阅读理解任务中表现的问题，发现现有模型的性能存在统计偏差，提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。

May, 2021

用于评估阅读理解系统的对抗样本

通过对斯坦福问答数据集（SQuAD）的对抗评估方案，测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性，从而提高模型对于语言的理解水平。

Jul, 2017

评估机器阅读理解模型对低资源实体重命名的鲁棒性

本研究旨在探究机器阅读理解模型对命名实体重命名的鲁棒性，尤其是对低资源地区如非洲的实体。通过创建一个被重命名的数据集 AfriSQuAD2 来测试模型的鲁棒性，并发现大模型相对于基础模型表现更好，而人类实体类型则高度挑战 MRC 模型的性能。

Apr, 2023

一个生成无法回答问题的轻量级方法

一种用于问题回答的数据增强方法，通过对可回答问题进行反义词和实体交换生成不可回答的问题，相比于现有的自动化方法，该方法具有更好的模型性能和更高的人类判断相关性和可读性，并被验证为未来工作的简单但强大的基准。

Oct, 2023

如何提升机器阅读理解模型：基于跨度对比学习的应用

本文提出了一种基于对比学习的跨度方法（spanCL），该方法能够显式地将可回答的问题与其答案跨度级别上的可回答和不可回答的对应项进行对比，并迫使 MRC 模型察觉到多种形式的关键语义变化，实验结果表明 spanCL 在 SQuAD 2.0 数据集上比基线模型具有显著改善，使 EM 提高了 0.86-2.14 个百分点，并且 spanCL 是利用生成的问题的一种有效方法。

Aug, 2022