ACLApr, 2020

通过响应选择评估对话生成系统

TL;DR本研究提出了一种构建响应选择测试集以进行系统评估的方法,通过过滤不相关的和可接受的候选者,实验表明此方法比 BLEU 等自动评估指标更能与人类评估相关联。