Jun, 2017

评估自然语言生成的任务导向对话中无监督度量的相关性

TL;DR本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高,更适合适用于提供多个参考数据的数据集。同时,本文倡导更具挑战性的数据集的建构。