May, 2023
不是所有指标都有罪:利用LLM改进NLG评估的修辞转换技术
Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing
TL;DR本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与16种自动评估指标之间的相关度提高了7.82%。