Jun, 2017
评估自然语言生成的任务导向对话中无监督度量的相关性
Relevance of Unsupervised Metrics in Task-Oriented Dialogue for
Evaluating Natural Language Generation
TL;DR本文考察了在task-oriented对话回复生成中是否能够使用Automated metrics如BLEU准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在task-oriented环境中的相关性较高,更适合适用于提供多个参考数据的数据集。同时,本文倡导更具挑战性的数据集的建构。