本文对比了现有的自动评估指标和人工评估指标,发现自动评估指标与人工评估指标相比非常相似,并提出了未来评估工作的建议。
Aug, 2022
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在 WMT'17 度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展,说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求,因此需要发展更加准确的自动评估指标,并给出了该领域发展的建议和方向。
Aug, 2020
本篇论文提出了一种新的理论方法,用以评估文本生成模型的可靠性与鲁棒性,并在 WMT 21 和 Spot-The-Bot 数据上进行了应用与验证,并实现了对样本量的有效估算。
Oct, 2022
本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法,通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性,提出了未来解释性评估指标的发展方向。
Mar, 2022
本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
Jun, 2023
该文章调查了近年来开发的自然语言生成(NLG)系统的评估方法。将 NLG 评估方法分为三类,讨论了每种类别取得的进展和仍然面临的挑战,重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例,并提出了未来的研究方向。