Jan, 2024

利用大型语言模型进行自然语言生成评估:综述

TL;DR自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用LLM进行NLG评估的全面概述,包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的NLG评估技术。