理解重述度量
本文重新审视了用于复述评估的自动评估度量,并得出两个违背常规智慧的发现:(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。 基于实验和分析,我们提出了 ParaScore,这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点,并明确地建模词汇差异。实验结果证明,ParaScore 显着优于现有的指标。
Feb, 2022
汤姆的研究使用德国数据集对改写的质量进行了自动和专家语言学评估,以回答改写应该有多大的差异才能被视为可接受,以及是否可以仅使用自动化指标评估改写质量的问题。
Jul, 2023
该研究提出了一种自动生成文本释义并修改其属性或属性的方法,解决了 “无对照数据” 的问题,利用多种模型进行实验并给出新的损失函数和训练策略,提高了语义保留和流畅度,该方法能够显著提高基准方法。
Oct, 2018
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。
May, 2023
本文分析了超过十余种测量两个短文本的语义相似性的方法,并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果,但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。
Apr, 2020
本文描述了隐喻释义生成的任务,并提出了两种不同的模型:词汇替换基线和一种新的序列 - 序列模型 “隐喻屏蔽”,它可以生成自由的隐喻释义。我们使用众包来评估我们的结果,并开发了自动度量衡来评估隐喻释义。我们发现,虽然词汇替换基线能够产生准确的释义,但它们往往缺乏隐喻,而我们的隐喻屏蔽模型在生成隐喻句子方面表现出色,同时在流利度和释义质量方面表现也很好。
Feb, 2020
本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。
Mar, 2022
大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标,该指标基于模型在同一问题的两个改写上的正确性概率,并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集,我们测量了几种模型类别的改写一致性,并展示了一致性随预训练而显著增加,而微调则没有。所有测试模型在改写一致性方面都有改进的空间。
Apr, 2024
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019