May, 2023

不是所有指标都有罪:利用 LLM 改进 NLG 评估的修辞转换技术

TL;DR本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。