Jun, 2024

ComperDial: 基于常识和角色的对话数据集与基准

TL;DR我们提出了一个新的基准系统 ComperDial,用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应,除了单个对话转折的评分外,也包含对整个对话进行人工注释的评分,我们利用 ComperDial 开发了一种新的自动评估度量标准 CPDScore,实验证明 CPDScore 与人类判断更相关。我们将 ComperDial 和 CPDScore 发布给社区,以加速开放领域对话系统自动评估度量标准的开发。