Themis：面向灵活且可解释的自然语言生成评估

Jun, 2024

Themis：面向灵活且可解释的自然语言生成评估

Themis: Towards Flexible and Interpretable NLG Evaluation

Xinyu Hu, Li Lin, Mingqi Gao, Xunjian Yin, Xiaojun Wan

TL;DR为了解决自然语言生成任务（NLG）的评估问题，本文构建了一个大规模的 NLG 评估语料库 NLG-Eval，并提出了一个专门用于 NLG 评估的大型语言模型 Themis，该模型通过多角度一致性和基于评分偏好的方法进行训练，能够灵活、可解释地进行评估，无需参考，并在各种 NLG 任务上展现出优越的评估性能，同时在未见任务上具有良好的泛化能力，超越了其他评估模型，包括 GPT-4。

Abstract

The evaluation of natural language generation (NLG) tasks is a significant and longstanding research issue. With the recent emergence of powerful large language models (LLMs), some studies have turned to LLM-base

natural language generation evaluation large language models nlg-eval themis

发现论文，激发创造

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

GEM 基准测试：自然语言生成、评估及度量

介绍了一个名为 GEM 的用于自然语言生成（NLG）及其评估和指标的活跃基准。GEM 提供了一个环境，使得模型可以被应用于广泛的任务，并且可以测试评估策略。该基准将定期更新以更多的支持多语言，并与模型一起推进挑战，欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。

Feb, 2021

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020