Apr, 2022

基于问题回答的摘要评估度量的答案验证方法基准测试

TL;DR本文研究基于问答的摘要评估方法,要求自动决定 QA 模型的预测是否正确,即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法,BERTScore 和 LERC,我们发现在某些场景下 LERC 的效果优于其他方法,但在其他场景下表现与词汇重叠相当。然而,我们的实验表明,改进的验证性能不一定能够转化为整体 QA-based 评估质量,在某些情况下,使用较差的验证方法(或根本不使用)具有与使用最佳验证方法相当的性能,这是由于数据集的特性所致。