评估指标在GPT-4时代：可靠评估大型序列到序列任务上的语言模型

Oct, 2023

评估指标在GPT-4时代：可靠评估大型序列到序列任务上的语言模型

Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks

Andrea Sottana, Bin Liang, Kai Zou, Zheng Yuan

TL;DR通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Abstract

large language models (LLMs) evaluation is a patchy and inconsistent landscape, and it is becoming clear that the quality of automatic evaluation

发现论文，激发创造

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

ChatGPT是一种好的NLG评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务——文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在NLP概念上的评估

通过对计算机科学-NLP领域的20个选定主题进行研究和评估，本文证明了GPT-4相对于GPT-3.5在产生简明调查文章方面的成功，并揭示了LLM在特定领域应用中存在的问题和短板。

Aug, 2023

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了LLM评估（Chiang和Lee，2023）和G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变LLMs给出的评分与人类评分的相关性。我们发现G-Eval中使用的自动思维链（CoT）并不总是使G-Eval与人类评分更加一致。我们还表明，强制LLM仅输出数字评分，如G-Eval中所示，是不理想的。最后，我们揭示出要求LLM解释其自身评分会持续改善ChatGPT与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

2023 Eval4NLP 子任务: 使用促使大型语言模型作为解释性⽅法的度量

介绍了Eval4NLP 2023共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有fine-tuning的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括GEMBA和Comet-Kiwi-XXL）相媲美甚至超过，并对LLMs的解释的可行性进行了小规模人类评估。

Oct, 2023

基于错误人工评估的GPT-4在句子简化中的深入评估

通过设计错误基础的人类注释框架来评估GPT-4在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现GPT-4相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此外，我们对广泛使用的自动评估指标进行了元评估，发现这些指标在评估GPT-4的高质量简化整体能力上缺乏足够的敏感性。

Mar, 2024

大型语言模型是语法错误修正的最先进评估器

研究发现大型语言模型（LLMs）在语法错误纠正（GEC）评估中表现优异，特别强调了流畅度作为评估标准的重要性。

Mar, 2024

揭示以度量为重点的LLM评估：挑战与解决方案

NLP中，大型语言模型（LLMs）的成功推动了其显著突破，本文对LLM的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学LLM进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024