NIPSJan, 2018

基于主题的对话机器人评估

TL;DR使用基于话题的度量标准来评估对话质量,包括考虑对话机器人在话题上维持连贯和有吸引力的对话能力及其多样性,并采用深度平均网络和话题分类器检测每个话语的对话话题,进一步引入话题关注表以捕捉话语中的话题关键字以及执行话题分类。经过与用户提供的评分进行比较,研究表明这些度量标准既与人类判断相关又补充人类判断,并且在亚历山大奖竞赛中对数万个真实人 - 机器人对话进行分析,凸显出用户对话机器人的期望。