Apr, 2020

自然分布偏移对问答模型的影响

TL;DR为了测试问题回答系统的泛化能力,我们建立了四个新的测试集,并发现存在一定适应性过度拟合。此外,我们在自然分布转移方面测试了模型,结果发现人类能力相比 SQuAD 模型有明显优势,同时强调需要采用能够考虑自然分布转移的评估指标。