Jun, 2019

使用自我对战近似交互式人类评估的开放域对话系统

TL;DR本文提出一种交互式的人工评估对话质量的方法,并介绍了一种基于自我对话的度量方式,该方式可以更好地捕捉对话模型的质量,同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较,研究表明,这种度量方式优于目前已知的所有自动化方法,同时也优于静态会话的人工评估。最后,开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。