Jun, 2024

CausalScore: 用于评估开放领域对话系统中回复相关性的自动无参考度量

TL;DR自动评估开放领域对话系统中回应的质量是一项具有挑战性但又至关重要的任务。我们提出了一种新颖的度量标准,称为 CausalScore,通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。我们的实验结果表明,CausalScore 在与人类判断的一致性方面显著优于现有的领先指标,此外,我们还收集了一个带有人工注释的因果关系对话数据集 CGDIALOG + 以及一组成对人类判断,以促进未来自动度量标准的发展。