ACLMar, 2022

RoMe: 一种稳健的自然语言生成度量标准

TL;DR本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。