本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。
Apr, 2020
本研究探讨了对于机器阅读理解任务的敌对训练(AT)方法应用的影响,以及使用半监督学习通过虚拟对抗训练(VAT)提高其性能的可能性,并发现 AT 能够帮助模型在包含低频词汇的实例中学习更好。
Nov, 2019
通过对多选阅读理解数据集进行实验,本文发现:1)BERT 模型主要是依靠关键字来进行答案预测,而不是通过语义理解和推理;2)BERT 模型不需要正确的句法信息来解决任务;3)这些数据集中存在着一些人工痕迹,即使没有完整上下文也可以解决任务。
Oct, 2019
研究注释方法对于提高阅读理解数据集和模型的影响,发现对模型进行对抗训练后,模型对非对抗训练数据仍有较强的泛化能力。同时,模型仍然可以从比其弱的模型注释得到的数据学习。
Feb, 2020
本文通过统计分析了解到,在特定的问题类型中使用一些现有的评估度量指标很容易产生偏差,为了解决这个问题,需要对这些指标做出一些适应性的改进。通过对 ROUGE 和 BLEU 等评估度量指标的改进,我们提出了一种更好地将 n-gram 重叠与人类判断相关联的方法,通过统计分析证明了这种改进方法的有效性。这种改进方法可以为实际场景中的机器阅读理解系统的开发提供积极的指导。
Jun, 2018
本文研究了使用 SQuAD 2.0 中不可回答的问题对预先训练的语言模型进行微调,以提高其对抗攻击的鲁棒性。结果表明,在 SQuAD 2.0 上进行微调可以显著提高模型的鲁棒性,并且 SQuAD 2.0 还会影响模型学习到的内容。
Jan, 2023
本文提出在 fine-tuning 阶段加入两个辅助任务,建立跨语言问题 - 段落对,并结合从 web 挖掘的知识短语进行跨语言 MRC,实验证明该方法有效。
研究提出了 MRCLens 工具,用于检测 MRC 数据集中的偏见并进行分类,以帮助研究者在训练模型之前就调整模型或数据,以解决模型过度依赖数据集偏见而无法泛化的问题。
Jul, 2022
本篇研究提出了一种半自动化的消融实验方法,通过检查即使除去与语言理解相关的特征后是否仍然能回答问题,来评估语言理解能力挑战数据集的性能,实验结果表明,很多问题并不需要语法复杂的推理,为了精准评估 MRC 数据集,需要在设计时额外注意。
本研究提出了一种针对无监督域自适应机器阅读理解的方法,其中源域有大量标记数据,而目标域只有未标记数据。该方法使用敌对领域自适应框架(AdaMRC),生成虚拟问题并结合领域分类器进行压缩编码,经过对抗学习实现域不变表示学习,具有普适性、可以与预训练的大规模语言模型相结合,并可扩展到半监督学习。
Aug, 2019