理解重述度量

May, 2022

Understanding Metrics for Paraphrasing

Omkar Patil, Rahul Singh, Tarun Joshi

TL;DR提出了一种新的度量方法 $ROUGE_P$ 来评估再表述的质量，并提供了证据表明当前自然语言生成度量标准不足以衡量好的再表述的期望属性。

Abstract

paraphrase generation is a difficult problem. This is not only because of the limitations in text generation capabilities but also due that to the lack of a proper definition of what qualifies as a paraphrase and corresponding →

paraphrase generation metrics rouge_p adequacy novelty

发现论文，激发创造

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

什么是好的改写：自动评估是否有效？

汤姆的研究使用德国数据集对改写的质量进行了自动和专家语言学评估，以回答改写应该有多大的差异才能被视为可接受，以及是否可以仅使用自动化指标评估改写质量的问题。

Jul, 2023

非平行文本转换的无监督评估指标和学习标准

该研究提出了一种自动生成文本释义并修改其属性或属性的方法，解决了 “无对照数据” 的问题，利用多种模型进行实验并给出新的损失函数和训练策略，提高了语义保留和流畅度，该方法能够显著提高基准方法。

Oct, 2018

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

风格转移和改写：寻找合理的语义相似性度量

本文分析了超过十余种测量两个短文本的语义相似性的方法，并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果，但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。

Apr, 2020

隐喻性解释生成

本文描述了隐喻释义生成的任务，并提出了两种不同的模型：词汇替换基线和一种新的序列 - 序列模型 “隐喻屏蔽”，它可以生成自由的隐喻释义。我们使用众包来评估我们的结果，并开发了自动度量衡来评估隐喻释义。我们发现，虽然词汇替换基线能够产生准确的释义，但它们往往缺乏隐喻，而我们的隐喻屏蔽模型在生成隐喻句子方面表现出色，同时在流利度和释义质量方面表现也很好。

Feb, 2020

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Mar, 2022

自然语言推理中错误多少是由于释义的变异导致的？

大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标，该指标基于模型在同一问题的两个改写上的正确性概率，并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集，我们测量了几种模型类别的改写一致性，并展示了一致性随预训练而显著增加，而微调则没有。所有测试模型在改写一致性方面都有改进的空间。

Apr, 2024

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019