EMNLPOct, 2022

不是所有的错误都是相等的:使用分层错误合成学习文本生成度量

TL;DR本文提出利用迭代的错误合成与强度评分的新颖流程构建高度相关于人类判断的基于模型的指标 SESCORE,该指标无需人工注释,在多个不同的自然语言生成任务中优于所有现有的无监督指标,并且即使没有获得任何人工标注训练数据,SESCORE 也实现了与最佳监督指标 COMET 相当的性能。