本文对比了现有的自动评估指标和人工评估指标,发现自动评估指标与人工评估指标相比非常相似,并提出了未来评估工作的建议。
Aug, 2022
本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。
Apr, 2022
该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量,并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示,多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越,并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问,以及审查 NLG 系统的优势和局限性的能力。
May, 2023
研究机器学习模型如何生成临床咨询笔记,并提出了一种人工评估方法,以理解它们对医生和患者临床安全性的影响,发现基于字符的 Levenshtein 距离指标的性能与 BertScore 等基于模型的指标相当,甚至更好。
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而,用于评估模型平均性能的常用度量标准(例如 R-Precision)和较少使用的坐标误差表现出了较强的相关性。此外,与其他替代方法相比,不推荐使用一些最近开发的度量标准,因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准,该度量标准在样本级别上与人类判断高度相关,并且在模型级别上具有近乎完美的相关性。我们的结果表明,这种新度量标准比当前所有替代方案都有广泛的优势。
Sep, 2023
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。
Jun, 2024
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在 WMT'17 度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
Jun, 2023