关于释义生成的评估度量

Feb, 2022

On the Evaluation Metrics for Paraphrase Generation

Lingfeng Shen, Lemao Liu, Haiyun Jiang, Shuming Shi

TL;DR本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Abstract

In this paper we revisit automatic metrics for paraphrase evaluation and obtain two findings that disobey conventional wisdom: (1) Reference-free metrics achieve better performance than their reference-based coun

automatic metrics paraphrase evaluation reference-free metrics parascore lexical divergence

发现论文，激发创造

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

理解重述度量

提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量，并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。

May, 2022

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024

文本生成参考无关评估中的伪相关性

本研究发现参考无关的自然语言生成系统的评估指标（即用于摘要和对话生成的评估指标）可能会依赖于与诸如单词重叠，困惑度和长度等指标的虚假相关性。同时，我们注意到当评估最先进的抽象化摘要系统时，这些指标具有高错误率，但可以通过明确设计避免参考无关特征进行评估指标以减轻这种错误。

Apr, 2022

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

非平行文本转换的无监督评估指标和学习标准

该研究提出了一种自动生成文本释义并修改其属性或属性的方法，解决了 “无对照数据” 的问题，利用多种模型进行实验并给出新的损失函数和训练策略，提高了语义保留和流畅度，该方法能够显著提高基准方法。

Oct, 2018

USCORE: 机器翻译完全无监督评价度量的有效方法

本研究开发了全无监督评估指标，利用评估指标的彼此相似性和协同作用、平行语料库挖掘和机器翻译系统等方法，以及迭代地挖掘伪平行数据、对不足的基础矢量空间重新映射并诱导无监督机器翻译系统，最终提供伪参考作为度量的附加组件，同时还利用伪平行数据诱导无监督多语言句子嵌入。结果表明，我们的全无监督度量是有效的，在 5 个数据集中的 4 个上打败了监督竞争对手。

Feb, 2022

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021