基于LLM的自然语言生成评估: 现状与挑战

Feb, 2024

基于LLM的自然语言生成评估: 现状与挑战

LLM-based NLG Evaluation: Current Status and Challenges

Mingqi Gao, Xinyu Hu, Jie Ruan, Xiao Pu, Xiaojun Wan

TL;DR自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的NLG评估方法，探讨了它们的优势和劣势，讨论了人机合作的NLG评估，并提出了该领域的几个开放问题和未来的研究方向。

Abstract

Evaluating natural language generation (NLG) is a vital but challenging problem in artificial intelligence. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and