Aug, 2018

评价问答生成系统的更优指标

TL;DR本文研究了使用 $n$-gram 相识度量(例如 BLEU、NIST 等)来评估自然语言生成(NLG)系统的性能,尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现,当前的自动评估指标并不总是能够客观地评估生成问题的可回答性。为了解决这个问题,本文提出了一个得分函数,并将其与现有的度量标准进行整合,这些度量标准与人类判断的相关性显著提高。