走向多参考时代 -- 解决自然语言生成评估中的数据泄漏和参考多样性受限问题

Aug, 2023

走向多参考时代 -- 解决自然语言生成评估中的数据泄漏和参考多样性受限问题

Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation

Xianfeng Zeng, Yijin Liu, Fandong Meng, Jie Zho

TL;DRN-gram 匹配评估指标，如 BLEU 和 chrF，在各种自然语言生成（NLG）任务中被广泛使用。然而，最近的研究发现，这些基于匹配的指标与人类评估之间存在较弱的相关性，尤其与 BLEURT 等基于神经网络的指标相比。在本文中，我们假设匹配指标的性能瓶颈可能是由于参考文献的多样性有限所致。为了解决这个问题，我们提出利用多个参考文献来增强这些指标与人类评估之间的一致性。在 WMT Metrics 基准测试中，我们观察到多参考文献的 F200spBLEU 比传统的单参考文献提高了 7.2％的准确度，而且它还超过了基于神经网络的 BERTscore 3.9％的准确度提升。此外，我们观察到大型语言模型（LLMs）中的数据泄漏问题在很大程度上可以通过我们的多参考文献指标得到缓解。我们在 https://github.com/SefaZeng/LLM-Ref 上发布了代码和数据。

Abstract

n-gram matching-based evaluation metrics, such as bleu and chrf, are widely utilized across a range of natural language generation (NLG) t

n-gram matching-based evaluation metrics bleu chrf neural-based metrics multi-references

发现论文，激发创造

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

提高 BLEU 参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

WMT2021 度量任务中 RoBLEURT 的提交

本文介绍我们对 RoBLEURT（Robustly Optimizing the training of BLEURT）分享指标任务的提交，并通过联合利用源自模型和仅参考模型优势、大量合成数据对模型进行持续预训练和使用数据去噪策略进行微调等关键操作，实现了在 8 个中英翻译语言对上达到 WMT2020 人类注释技术最高相关性的模型。

Apr, 2022

神经翻译和文本生成的多参考训练与伪参考

利用多个参考文献训练神经文本生成模型的方法对机器翻译和图像字幕生成任务产生了显著的改进，其中一种算法先将现有的参考文献压缩成格点再遍历来生成伪参考文献。

Aug, 2018

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024