Apr, 2020

PONE:一种新型开放域生成对话系统自动评估度量

TL;DR通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。