Jul, 2019
通过人工多重参考研究开放式对话系统的评估
Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References
Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi...
TL;DR本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点,研究结果表明,使用多参考评估可以提高几种自动指标与人类判断之间的相关性,无论是对于系统输出的质量还是多样性。