Oct, 2023

xDial-Eval: 多语言开放领域对话评估基准

TL;DR使用预训练语言模型和高质量标注的对话数据,最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上,对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此,为了解决这个问题,我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试,并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比,最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%,同时具有更少的参数。