提出了一种基于 BERT 的学习评估指标 BLEURT,可以通过数千个训练实例建模人类判断,并使用数百万个合成实例的新型预训练方案来帮助模型泛化,提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。
Apr, 2020
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
本文重新评估了文本摘要的评估方法,使用最新的数据集和系统输出来评估评估指标的可靠性,并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。
Oct, 2020
本文介绍了自然语言处理领域中用于测量模型性能的度量标准,发现当前使用的大多数指标存在评估不足及解释性差等问题,导致透明性和可重复性的降低。
Apr, 2022
本文通过统计分析了解到,在特定的问题类型中使用一些现有的评估度量指标很容易产生偏差,为了解决这个问题,需要对这些指标做出一些适应性的改进。通过对 ROUGE 和 BLEU 等评估度量指标的改进,我们提出了一种更好地将 n-gram 重叠与人类判断相关联的方法,通过统计分析证明了这种改进方法的有效性。这种改进方法可以为实际场景中的机器阅读理解系统的开发提供积极的指导。
Jun, 2018
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展,说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求,因此需要发展更加准确的自动评估指标,并给出了该领域发展的建议和方向。
Aug, 2020
本研究提出了一种基于 BERT 的新度量方法,通过无监督对比学习,评估文档摘要的质量,并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
使用大型语言模型,无需人工注释,将合成数据集混合到现有数据集中,可以提高低资源语言的 BLEURT 模型性能。
Feb, 2023