未能回答问题对机器阅读理解模型鲁棒性的影响
SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.
Jun, 2018
研究表明精度高的阅读理解模型倾向于依赖于所提供的有关输入中的模式,而对该模型进行噪声对抗性攻击、数据扩增和对抗性训练可以提高其鲁棒性和泛化性能,并改善在 train/evaluation distribution mismatch 时的结果。
Feb, 2020
FQuAD2.0 is a new dataset that extends FQuAD with unanswerable questions, enabling the training of French Question-Answering models that can distinguish unanswerable questions from answerable ones, achieving an F1 score of 82.3% on classification and 83% on Reading Comprehension tasks with a fine-tuned CamemBERT-large model.
Sep, 2021
本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。
Apr, 2020
本论文提出了一种用于机器阅读理解的数据增广技术,通过自动生成相关无法回答的问题并将其与包含答案的段落相配对,提出了一个序列模型,该模型有效地捕捉了问题和段落之间的交互。实验结果表明,该模型相对于序列到序列基线模型表现更好,同时将自动生成的无法回答的问题作为数据增广的一种方法,可以大幅提高 SQuAD 2.0 数据集上的 F1 值。
Jun, 2019
本文研究了预训练语言模型在机器阅读理解任务中表现的问题,发现现有模型的性能存在统计偏差,提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。
May, 2021
本研究旨在探究机器阅读理解模型对命名实体重命名的鲁棒性,尤其是对低资源地区如非洲的实体。通过创建一个被重命名的数据集 AfriSQuAD2 来测试模型的鲁棒性,并发现大模型相对于基础模型表现更好,而人类实体类型则高度挑战 MRC 模型的性能。
Apr, 2023
一种用于问题回答的数据增强方法,通过对可回答问题进行反义词和实体交换生成不可回答的问题,相比于现有的自动化方法,该方法具有更好的模型性能和更高的人类判断相关性和可读性,并被验证为未来工作的简单但强大的基准。
Oct, 2023
本文提出了一种基于对比学习的跨度方法(spanCL),该方法能够显式地将可回答的问题与其答案跨度级别上的可回答和不可回答的对应项进行对比,并迫使 MRC 模型察觉到多种形式的关键语义变化,实验结果表明 spanCL 在 SQuAD 2.0 数据集上比基线模型具有显著改善,使 EM 提高了 0.86-2.14 个百分点,并且 spanCL 是利用生成的问题的一种有效方法。
Aug, 2022