AAAIDec, 2020

用于评估机器阅读理解的语义修改技术

TL;DR本研究调查了最先进的机器阅读理解模型是否能够正确处理修改语义的现象,并提出了一种用于评估模型能力的新方法。对 12 种不同的神经体系结构配置和四个训练数据集进行大规模实证研究后,发现尽管这些模型在性能方面表现出色,但它们仍然难以正确处理语义上的改变。