Jun, 2024

Themis:面向灵活且可解释的自然语言生成评估

TL;DR为了解决自然语言生成任务(NLG)的评估问题,本文构建了一个大规模的 NLG 评估语料库 NLG-Eval,并提出了一个专门用于 NLG 评估的大型语言模型 Themis,该模型通过多角度一致性和基于评分偏好的方法进行训练,能够灵活、可解释地进行评估,无需参考,并在各种 NLG 任务上展现出优越的评估性能,同时在未见任务上具有良好的泛化能力,超越了其他评估模型,包括 GPT-4。