ACLSep, 2023

SQUARE: 使用多个正面和负面参考答案的自动问答评估

TL;DR使用多个参考答案的评估指标 SQuArE(基于句子级问题回答评估)对句子形式的 QA 系统进行评估,显示其优于以往的基准线,并获得与人工评注最高的相关性。