无调整的 GLEU

May, 2016

GLEU Without Tuning

Courtney Napoles, Keisuke Sakaguchi, Matt Post, Joel Tetreault

TL;DR本文描述了对 GLEU 度量标准的改进，解决了使用越来越多参考集合时出现的问题，并且不需要调整参数，建议使用改进后的指标。

Abstract

The gleu metric was proposed for evaluating grammatical error corrections using n-gram overlap with a set of reference sentences, as oppos

gleu metric grammatical error corrections reference sentences modified metric tuning

发现论文，激发创造

CLEME: 语法错误修正的去偏置多参考评估

提出了一种 Chunk-Level Multi-reference Evaluation (CLEME) 方法，通过建立一致边界的块序列并自动确定语法错误边界，以评估多引用设置下的语法纠错系统的性能，CLEME 方法在语料库级别和句子级别设置中比现有基于参考的 GEC 度量表现更好。

May, 2023

CLEME2.0：通过解构编辑项实现更可解释的语法错误修正评估

本篇论文着重于改进语法错误修正（GEC）度量的可解释性，提出了基于参考的评估策略 CLEME2.0，描述了 GEC 系统的四个基本维度，即击中修正、错误修正、欠修正和过修正，综合这些维度对系统进行评估，能够获得高度一致性的人工判定结果。在两个人工判定数据集和六个参考数据集上进行了大量实验证明了该方法的有效性和鲁棒性。经同行评审后，所有代码将会发布。

Jul, 2024

MuLER: 详细和可扩展的基于参考文献的评估

MuLER 是一种将文本生成的评估指标转化为细粒度分析工具的新方法，可量化所选度量标准对特定错误类型（例如，位置名称错误）的惩罚程度，并通过分析展示了其在机器翻译等任务中的有效性和可用性。

May, 2023

没有可比性：语法错误修正中无参考评估指标

本文研究自动评估语法纠错系统的方法，通过使用无需黄金标准参考的语法度量标准和在句子级别而非文本级别计算语法度量标准，可以极大提高评估的准确度。

Oct, 2016

走向多参考时代 -- 解决自然语言生成评估中的数据泄漏和参考多样性受限问题

N-gram 匹配评估指标，如 BLEU 和 chrF，在各种自然语言生成（NLG）任务中被广泛使用。然而，最近的研究发现，这些基于匹配的指标与人类评估之间存在较弱的相关性，尤其与 BLEURT 等基于神经网络的指标相比。在本文中，我们假设匹配指标的性能瓶颈可能是由于参考文献的多样性有限所致。为了解决这个问题，我们提出利用多个参考文献来增强这些指标与人类评估之间的一致性。在 WMT Metrics 基准测试中，我们观察到多参考文献的 F200spBLEU 比传统的单参考文献提高了 7.2％的准确度，而且它还超过了基于神经网络的 BERTscore 3.9％的准确度提升。此外，我们观察到大型语言模型（LLMs）中的数据泄漏问题在很大程度上可以通过我们的多参考文献指标得到缓解。我们在 https://github.com/SefaZeng/LLM-Ref 上发布了代码和数据。

Aug, 2023

一种新的评估方法：中文语法错误纠正的评估数据和度量

提出了三种新的中文错别字纠正 (CGEC) 的评估度量：基于参考的度量方法有句子级别准确度和字符级 BLEU；基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。

Apr, 2022

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

GRUEN 用于生成文本的语言质量评估

本研究提出了一种新的基于 GRUEN 模型的评估语法、无冗余、焦点、结构和连贯性等语言生成质量的自动评估指标。该指标不需要人工参考，具有无监督，确定性和适应性等优点，并通过实验验证了与人类评判高度相关的结果。

Oct, 2020

语法错误修正的自动度量验证

提出了一种自动化方法 MAEGE 用于语法错误校正度量的验证，该方法可以解决现有实践的许多困难并展示了标准的 M2 度量在语料库级别排名上性能较差的新见解。

Apr, 2018

基于参考文献评估语法错误修正和文本简化存在偏见

本文研究发现，当前文本直接生成模型质量评估所使用的参考文献太少，导致评估结果偏差较大 (即低覆盖率偏差)，在语法纠错 (GEC) 评估中，无法通过重新缩放或在可以实现的范围内增加参考文献的数量来解决该问题，这是由于单个句子的有效修正的分布具有长尾性。该问题促使 GEC 系统在可以生成有效修正的情况下避免进行纠正，使得现有系统的表现比人类相当或更好，类似的现象在文本简化中也得到了支持。

Apr, 2018