EMNLPApr, 2021

$Q^{2}$:通过问题生成和问题回答评估基于知识的对话中的事实一致性

TL;DR本研究提出了一种用于对话中基于知识的生成模型的事实一致性评估度量,通过结合自动问题生成和问题回答,使用自然语言推理进行回答跨度比较。在 Wizard-of-Wikipedia 数据集上,我们得到了经过人工标注的对话系统输出数据集,并对 $Q^2$ 和其他度量标准进行了彻底的元评估,结果显示它与人类判断具有更高的相关性。