面向文本生成的统一多维度评估器

EMNLPOct, 2022

面向文本生成的统一多维度评估器

Towards a Unified Multi-Dimensional Evaluator for Text Generation

Ming Zhong, Yang Liu, Da Yin, Yuning Mao, Yizhu Jiao...

TL;DR提出了一种基于多维度布尔问题回答任务的统一评价器 UniEval，通过指导模型回答不同问题的方式，从多维度评估自然语言生成的质量，并且通过中间学习阶段，UniEval 可以整合来自多个相关任务的外部知识，以实现更全面的评估。实验表明，UniEval 比现有的评估指标与人类判断的相关性更高，可在多个任务中实现强的零次学习能力。

Abstract

multi-dimensional evaluation is the dominant paradigm for human evaluation in natural language generation (NLG), i.e., evaluating the generated text from multiple explainable dimensions, such as coherence and flu

natural language generation multi-dimensional evaluation unieval boolean question answering dialogue response generation

发现论文，激发创造

多维度评估上下文学习文本摘要

本文研究以背景学习为基础的评估器，在自然语言生成（NLG）的各个方面进行多维度评估，实验证明：相比于基于训练集的评估器，以背景学习为基础的评估器在文本摘要等维度上具备同等的效力和竞争力；研究表明，在确定和数量选择上下文示例因素的影响下，以背景学习为基础的评估器在评估作为大型语言模型（如 GPT-3）的零样本总结时也具有很强的效力。

Jun, 2023

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

X-Eval: 通过辅助评估方面的增强指令调整实现通用多方面文本评估

X-Eval 是一个两阶段的指导调优框架，通过自定义的用户视角对文本进行评估，提高了一个轻量级语言模型与人工判断的相关性。

Nov, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

DecompEval：以无监督分解的问答方式评估生成文本

本文提出了一种简单而有效的度量方法 DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval 在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Jul, 2023

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

QGEval：一个用于问题生成评估的基准

我们提出了一个名为 QGEval 的多维度评估标准，用于对生成的问题和现有的自动评估方法进行评估，涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析，我们发现大多数问题生成模型在可回答性和回答一致性方面表现不尽人意，并且现有的评估指标无法很好地与人类评估结果相吻合。我们希望这项工作能促进问题生成技术和问题生成自动评估方法的发展。

Jun, 2024

压缩、转换和创造：一个评估自然语言生成的统一框架

本文提出了一种统一的自然语言生成（NLG）任务评估度量方法，基于信息对齐的概念，通过设计可解释的度量标准并使用自监督模型实现了度量方法的操作化，结果表明所提出的统一设计度量方法在各种 NLG 实验中具有比现有度量方法更强的相关性。

Sep, 2021

将人类和统计评估统一为一体：自然语言生成

本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率，并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量，带来了更准确和全面的结果。

Apr, 2019