ACLSep, 2021

开放域问答中通用化的挑战

TL;DR研究了开放域问答中新颖测试问题和训练问题之间的性能差异,并通过三个不同级别和类型的一般化问题的类别进行了评估,发现目前的最强模型在复合一般化和新实体一般化方面的性能比全测试集差 13.1%和 5.4%。此外, 本文还表明虽然非参数模型可以相对良好地处理包含新颖实体的问题,但对于需要合成一般化的问题,则非常困难。