ACLFeb, 2021

NoiseQA: 以用户为中心的问答挑战数据集评估

TL;DR本文研究 Question-Answering 系统在实际部署中的问题,发现在回答引擎之前的管道部件可能会引入多样化且可观的错误,而且即使是针对强大的预训练 QA 模型,性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前,还有很大的改进空间。因此,他们强调 QA 评估需要扩展到考虑实际使用情况,并希望他们的研究结果能引起更广泛的关注。