Oct, 2022

QAScore -- 一种无监督无参考问题生成评估度量

TL;DR提出了一种新的参考无需评估指标 QAScore,通过计算语言模型能否正确生成答案中掩码单词的概率来评估问题,发现它比传统的基于单词重叠的 BLEU,ROUGE 和预训练模型基于 BERTScore 等指标更能与人类判断相关。