ACLJun, 2018

适应 ROUGE 和 BLEU 以更好地评估机器阅读理解任务

TL;DR本文通过统计分析了解到,在特定的问题类型中使用一些现有的评估度量指标很容易产生偏差,为了解决这个问题,需要对这些指标做出一些适应性的改进。通过对 ROUGE 和 BLEU 等评估度量指标的改进,我们提出了一种更好地将 n-gram 重叠与人类判断相关联的方法,通过统计分析证明了这种改进方法的有效性。这种改进方法可以为实际场景中的机器阅读理解系统的开发提供积极的指导。