基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

ACLMay, 2023

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist

Iftitahu Ni'mah, Meng Fang, Vlado Menkovski, Mykola Pechenizkiy

TL;DR该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

Abstract

In this study, we analyze nlg automatic metrics based on whether human evaluation aspect is used as context or objective to compute the metrics: (i) Task-agnostic and (ii) Human-aligned. task-agnostic metrics, su

nlg automatic metrics task-agnostic metrics human-aligned metrics discriminative power of automatic metrics multi-aspect human-aligned metric

发现论文，激发创造

用于评估 NLG 评估指标的扰动检查清单

通过研究发现，基于单一标准（如总体质量）的自动评估指标与人工评分不能很好地关联，因此我们提出了 CheckLists 以更好地设计和评估自动评估指标，并通过模板针对特定标准对输出进行干扰，从而暴露指标的局限性，并有利于更好地设计、分析和评估这些指标。

Sep, 2021

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019