REFeREE: 一种基于模型的无参考文本简化度量方法
通过使用大型多语言模型的概率作为参考度量标准,本文尝试了各种修改以推进无参考评估,并且分析了一些潜在的弱点,结果表明这种方法是出乎意料的稳健,可能在广泛领域和系统质量方面提供合理的性能。
Apr, 2021
本文探讨了针对在无参考文本的情况下,对简化文本进行质量估计的多种方法,并基于 QATS 2016 的数据集对多个方法进行了比较,最终发现基于 n-gram 的机器翻译度量(如 BLEU 和 METEOR)最能与语法正确性和意义保留的人工评估相匹配,而基于长度的度量方法则最适合衡量简明易懂程度。
Jan, 2019
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。
Mar, 2024
本文重新审视了用于复述评估的自动评估度量,并得出两个违背常规智慧的发现:(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。 基于实验和分析,我们提出了 ParaScore,这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点,并明确地建模词汇差异。实验结果证明,ParaScore 显着优于现有的指标。
Feb, 2022
自动评估句子简化仍然是一个具有挑战性的问题,我们提出了一种新的学习评估度量 (SLE),该度量侧重于简化,与人类判断相关性方面表现优越。
Oct, 2023
该论文提出了一种无需参考文献且无需训练的摘要评估度量方法,包括中心性加权相关度分数和自我参考冗余分数。实验结果表明,该方法在单篇和多篇文档摘要评估方面显著优于现有方法。
Jun, 2021
本文介绍了一种名为 NoRefER 的新型无参考质量评估指标,其采用对比学习和连体网络结构,自我监督地精调跨语言语言模型以进行自动语音识别假设的点对排序以评估质量。半监督版本还使用参考数据集来改善对潜在错误样本的选择。实验结果表明,NoRefER 与基于参考的指标高度相关,具有不错的无参考 ASR 评估或 A / B 测试潜力。
Jun, 2023
本文提出了一种称为 CTRLEval 的无监督无参考文本生成度量方法,通过将每个方面制定为多个文本填充任务,从不同角度评估受控制的文本生成。此度量方法无需进行任何模型训练,只需从预训练的语言模型中收集生成概率。实验结果表明,相比其他基线,该度量方法与人类判断的相关性更高,同时能更好地评估不同质量和模型的生成文本的一般性。
Apr, 2022
基于广泛的实验,本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能,并表明参考无关度量与人类判断有较高相关性,并对语言质量的不足更敏感,然而其有效性因任务而异,受候选文本质量影响。因此,在应用参考无关度量到新任务时,特别是在输入形式不常见或答案空间高度变化时,有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。
Mar, 2024