EMNLPJul, 2017

用于评估阅读理解系统的对抗样本

TL;DR通过对斯坦福问答数据集(SQuAD)的对抗评估方案,测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性,从而提高模型对于语言的理解水平。