REFeREE: 一种基于模型的无参考文本简化度量方法

COLINGMar, 2024

REFeREE: 一种基于模型的无参考文本简化度量方法

REFeREE: A REference-FREE Model-Based Metric for Text Simplification

Yichen Huang, Ekaterina Kochmar

TL;DR简化文本缺乏统一的质量标准和注解参考文本的稀缺和成本高昂。我们提出通过引入无参考基于模型的度量 REFeREE 和一个三阶段的课程来缓解这些限制。我们的实验证明我们的度量模型在预测整体打分方面优于现有的基于参考的度量模型，并且在预测特定打分方面表现出竞争力和一致性，而推理时不需要参考简化文本。

Abstract

text simplification lacks a universal standard of quality, and annotated reference simplifications are scarce and costly. We propose to alleviate such limitations by introducing →

text simplification universal standard of quality annotated reference simplifications referee metric

发现论文，激发创造

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

文本简化系统的无参考质量评估

本文探讨了针对在无参考文本的情况下，对简化文本进行质量估计的多种方法，并基于 QATS 2016 的数据集对多个方法进行了比较，最终发现基于 n-gram 的机器翻译度量（如 BLEU 和 METEOR）最能与语法正确性和意义保留的人工评估相匹配，而基于长度的度量方法则最适合衡量简明易懂程度。

Jan, 2019

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

简化水平评估（SLE）：用于句子简化的无参考学习简化指标

自动评估句子简化仍然是一个具有挑战性的问题，我们提出了一种新的学习评估度量 (SLE)，该度量侧重于简化，与人类判断相关性方面表现优越。

Oct, 2023

一种无需训练和参考的摘要评估度量方法：基于中心性加权相关性和自我引用冗余度量

该论文提出了一种无需参考文献且无需训练的摘要评估度量方法，包括中心性加权相关度分数和自我参考冗余分数。实验结果表明，该方法在单篇和多篇文档摘要评估方面显著优于现有方法。

Jun, 2021

基于半监督语言模型微调和对比学习的自动语音识别无参考质量度量

本文介绍了一种名为 NoRefER 的新型无参考质量评估指标，其采用对比学习和连体网络结构，自我监督地精调跨语言语言模型以进行自动语音识别假设的点对排序以评估质量。半监督版本还使用参考数据集来改善对潜在错误样本的选择。实验结果表明，NoRefER 与基于参考的指标高度相关，具有不错的无参考 ASR 评估或 A / B 测试潜力。

Jun, 2023

CTRLEval：用于评估受控文本生成的无监督无参考度量

本文提出了一种称为 CTRLEval 的无监督无参考文本生成度量方法，通过将每个方面制定为多个文本填充任务，从不同角度评估受控制的文本生成。此度量方法无需进行任何模型训练，只需从预训练的语言模型中收集生成概率。实验结果表明，相比其他基线，该度量方法与人类判断的相关性更高，同时能更好地评估不同质量和模型的生成文本的一般性。

Apr, 2022

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024