一种自动化和成本效益高的语言生成评估同行评审框架
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估LLMs的方法和维度,并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了LLM评估(Chiang和Lee,2023)和G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变LLMs给出的评分与人类评分的相关性。我们发现G-Eval中使用的自动思维链(CoT)并不总是使G-Eval与人类评分更加一致。我们还表明,强制LLM仅输出数字评分,如G-Eval中所示,是不理想的。最后,我们揭示出要求LLM解释其自身评分会持续改善ChatGPT与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用LLM进行NLG评估的全面概述,包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的NLG评估技术。
Jan, 2024
通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。
Jan, 2024
通过使用同行评审机制来自动测量大型语言模型的能力并评估其性能,我们提出了一种新颖的无监督评估方法,并通过为每个语言模型分配可学习的能力参数来调整最终排名,以最大化每个语言模型的能力和得分的一致性,并使用PEN、CIN和LIS三个指标来评估与人工评级的一致性差距,实验证明了该方法的有效性。
Feb, 2024
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
本研究解决了现有自然语言处理评估方法主要集中于英语,而缺乏多语言评估框架的问题。提出的跨语言自动评估套件(CIA Suite)和评估模型Hercule,利用英语参考答案为低资源语言的文本生成赋分,实验结果显示其评估结果与人类判断高度一致,具有重要的多语言评估潜力和影响。
Oct, 2024