生成文本的无参考评估的局限性

Oct, 2022

On the Limitations of Reference-Free Evaluations of Generated Text

Daniel Deutsch, Rotem Dror, Dan Roth

TL;DR我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Abstract

There is significant interest in developing evaluation metrics which accurately estimate the quality of generated text without the aid of a human-written reference text, which can be time consuming and expensive

evaluation metrics reference-free metrics generated text machine translation model behavior

发现论文，激发创造

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

文本生成参考无关评估中的伪相关性

本研究发现参考无关的自然语言生成系统的评估指标（即用于摘要和对话生成的评估指标）可能会依赖于与诸如单词重叠，困惑度和长度等指标的虚假相关性。同时，我们注意到当评估最先进的抽象化摘要系统时，这些指标具有高错误率，但可以通过明确设计避免参考无关特征进行评估指标以减轻这种错误。

Apr, 2022

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

CTRLEval：用于评估受控文本生成的无监督无参考度量

本文提出了一种称为 CTRLEval 的无监督无参考文本生成度量方法，通过将每个方面制定为多个文本填充任务，从不同角度评估受控制的文本生成。此度量方法无需进行任何模型训练，只需从预训练的语言模型中收集生成概率。实验结果表明，相比其他基线，该度量方法与人类判断的相关性更高，同时能更好地评估不同质量和模型的生成文本的一般性。

Apr, 2022

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。

Jun, 2023

MT-Ranker: 无参考系统间排序的机器翻译评估

机器翻译评估已被传统上视为回归问题，但这种方法存在两个限制：缺乏可解释性且人工评注者难以给出一致的分数；在真实的场景中，大多数评分方法基于（参考翻译）对，限制了它们的适用性。本研究提出一种新的评估方法，将无参考机器翻译评估转化为配对排序问题，并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下，在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果，在包含细粒度评估标准的更有挑战的基准测试 ACES 上，MT-Ranker 在无参考和参考基准线上表现出最先进的水平。

Jan, 2024

LLM 作为自恋评估者：当自我膨胀影响评分

本研究探讨了自然语言处理领域中生成文本内容的自动评估问题，特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差，并揭示出在无参考摘要的情况下，这种评估指标可能受到潜在偏见的影响，强调未来需要开发更可靠的评估协议。

Nov, 2023