ACLApr, 2020

机器阅读理解模型鲁棒性基准测试

TL;DR本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。