RoMe: 一种稳健的自然语言生成度量标准

ACLMar, 2022

RoMe: 一种稳健的自然语言生成度量标准

RoMe: A Robust Metric for Evaluating Natural Language Generation

Md Rashad Al Hasan Rony, Liubov Kovriguina, Debanjan Chaudhuri, Ricardo Usbeck, Jens Lehmann

TL;DR本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Abstract

Evaluating natural language generation (NLG) systems is a challenging task. Firstly, the metric should ensure that the generated hypothesis reflects the reference's semantics. Secondly, it should consider the grammatical quality of the generated sentence. Thirdly, it should be robust e

natural language generation evaluation metric rome semantic similarity grammatical acceptability

发现论文，激发创造

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

基于语义相似度评分的面向意义的自然语言生成测度评估动态、解释性清单

本研究旨在支持对生成文本的质量评估，并针对属性更相关性的 NLG 评估指标进行比较评估，提出了一种 AMR-based CheckList 方法，用于意义相关的语言现象，设计了 GraCo 评估指标，使用 AMR 计算词汇凝聚图，表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。

May, 2022

生成文本方言鲁棒性评估

通过引入 NANO 的训练过程，提高了评估领域的方言鲁棒性和意识，拓展了标准度量基准，解决了南北方言差异和语义波动的问题。

Nov, 2022

WRDScore: 评估自然语言生成模型的新指标

自然语言生成中方法名称预测面临困难，为了解决这些问题，我们提出了一种新的度量标准，能够计算精确度和召回率，并在与人类判断相比获得良好的性能。

May, 2024

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

GEM 基准测试：自然语言生成、评估及度量

介绍了一个名为 GEM 的用于自然语言生成（NLG）及其评估和指标的活跃基准。GEM 提供了一个环境，使得模型可以被应用于广泛的任务，并且可以测试评估策略。该基准将定期更新以更多的支持多语言，并与模型一起推进挑战，欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。

Feb, 2021

RankME：自然语言生成的可靠人类评级

本文提出了一种新颖的基于排名的幅度估计方法（RankME），用于改善自然语言生成过程中人类评价的一致性和可靠性，并且可以根据多个不同的标准评估系统质量，是一种有效和经济的评估方法。

Mar, 2018

评估自然语言生成评价指标：基于测量理论视角

本文提出了一种基于测试设计的方法，用于概念化和评估自然语言生成评价指标的可靠性和有效性，并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用，本研究旨在促进设计、评估和解释可靠和有效的指标，最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。

May, 2023

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024