DecompEval：以无监督分解的问答方式评估生成文本

ACLJul, 2023

DecompEval：以无监督分解的问答方式评估生成文本

DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering

Pei Ke, Fei Huang, Fei Mi, Yasheng Wang, Qun Liu...

TL;DR本文提出了一种简单而有效的度量方法 DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval 在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Abstract

Existing evaluation metrics for natural language generation (NLG) tasks face the challenges on generalization ability and →

natural language generation evaluation metrics generalization ability interpretability decompeval

发现论文，激发创造

分解和聚合：一种逐步解释的评估框架

Large Language Models 的元评估问题是如何可靠地评估生成文本的一个关键研究问题。为了解决这一挑战，提出了 Decompose and Aggregate 方法，将评估过程分解为不同阶段，从而提供了更可解释的界面，并在多个元评估基准上实现了多种 Large Language Models 的评估性能提升高达 39.6%。

May, 2024

面向文本生成的统一多维度评估器

提出了一种基于多维度布尔问题回答任务的统一评价器 UniEval，通过指导模型回答不同问题的方式，从多维度评估自然语言生成的质量，并且通过中间学习阶段，UniEval 可以整合来自多个相关任务的外部知识，以实现更全面的评估。实验表明，UniEval 比现有的评估指标与人类判断的相关性更高，可在多个任务中实现强的零次学习能力。

Oct, 2022

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

May, 2023

学会分解：基于可比文本的假想问题分解

本文研究大规模中介设备的预训练，在使用来自可比文本，特别是大规模平行新闻的远程监督的情况下将显式分解建模应用于自然语言理解系统。作者称使用这种中间预训练可以更容易地开发强大的显式分解模型。例如，该模型在语义分析方面取得了 20％至 30％的改进，并用于构建名为 DecompEntail 的新型显式分解问答系统。

Oct, 2022

X-Eval: 通过辅助评估方面的增强指令调整实现通用多方面文本评估

X-Eval 是一个两阶段的指导调优框架，通过自定义的用户视角对文本进行评估，提高了一个轻量级语言模型与人工判断的相关性。

Nov, 2023

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

RepEval: LLM 表征的有效文本评估

自动生成文本的自动评估指标在自然语言生成领域中起着重要作用，特别是随着大规模语言模型的快速发展。然而，现有的评估指标通常局限于特定情景，因此需要新的、灵活和有效的指标。本研究介绍了 RepEval，这是第一个利用 LLM 表示的投影进行评估的指标，通过简单的提示修改，能够轻松适应各种任务。在三个任务中的十个数据集上的结果表明我们方法的高效性，与以前的指标相比，甚至超过了 GPT-4，突显了 LLM 表示中嵌入的有关文本质量的丰富信息，为新指标的开发提供了洞见。

Apr, 2024

深入研究索赔分解

研究探讨了生成文本的外部知识支持度评估方法，发现该评估方法对于存证方法的选择非常敏感，并提出了一种改进方法来提高分解质量。

Mar, 2024