语言生成评估指标的奇异案例：一则警示故事

Oct, 2020

语言生成评估指标的奇异案例：一则警示故事

Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale

Ozan Caglayan, Pranava Madhyastha, Lucia Specia

TL;DR本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Abstract

automatic evaluation of language generation systems is a well-studied problem in Natural Language Processing. While novel metrics are prop

发现论文，激发创造

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在WMT'17度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型NLG任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

生成和评估语言的双重排行榜

提出了一种新的比较模型，即Bidimensional Leaderboards，这种模型同时跟踪语言生成模型的进展和评价指标，通过人类评价，对评价指标进行排名和选择，以模型和评价指标为竞争方，最后得出一个集成评价指标。

Dec, 2021

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

关于使用嵌入、聚类和字符串进行文本生成器评估的实用性

本文探究了自然语言生成中，自动评价方法之一的Mauve metric在理论与实践中的缺陷，并提出了基于聚类的代替方案，通过编码句法和一致性特征来评估文本生成方法。

May, 2022

能否更简单地做到这一点？自然语言生成的简单、高效、高质量评估指标

本文探讨了自然语言生成的有效评估指标，以及通过使用轻量级版本的Transformer和线性、二次逼近算法来实现评估指标的高效计算，研究发现，TinyBERT在语义相似性评估指标方面表现最佳，并且在平均推理时间上比原算法要快5倍，但WMD近似计算并没有带来效率提升，反而在部分机器翻译数据集上使得质量下降。

Sep, 2022

评估自然语言生成评价指标：基于测量理论视角

本文提出了一种基于测试设计的方法，用于概念化和评估自然语言生成评价指标的可靠性和有效性，并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用，本研究旨在促进设计、评估和解释可靠和有效的指标，最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。

May, 2023

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的50%即可获得与100%人工评级相同的评估结果。

Jun, 2023

评估指标在GPT-4时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

自然语言生成中的自动评测指标：当前评估实践的调查

本研究聚焦于自然语言生成（NLG）任务中自动评测指标的使用现状，揭示了现有做法的不足，包括不当的指标选择、缺乏实施细节以及与人类评判的相关性缺失。同时，提出了改进建议，以提高该领域的评估规范性。

Aug, 2024