朝向神经语言评估器

Sep, 2019

Towards Neural Language Evaluators

Hassan Kané, Yusuf Kocyigit, Pelkins Ajanoh, Ali Abdalla, Mohamed Coulibali

TL;DR该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Abstract

We review three limitations of bleu and rouge -- the most popular metrics used to assess reference summaries against hypothesis summaries, come up with criteria for what a good metric should behave like and propo

bleu rouge transformers-based language models reference summary hypothesis summary

发现论文，激发创造

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

适应 ROUGE 和 BLEU 以更好地评估机器阅读理解任务

本文通过统计分析了解到，在特定的问题类型中使用一些现有的评估度量指标很容易产生偏差，为了解决这个问题，需要对这些指标做出一些适应性的改进。通过对 ROUGE 和 BLEU 等评估度量指标的改进，我们提出了一种更好地将 n-gram 重叠与人类判断相关联的方法，通过统计分析证明了这种改进方法的有效性。这种改进方法可以为实际场景中的机器阅读理解系统的开发提供积极的指导。

Jun, 2018

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

通过对比学习无监督无参考摘要质量评估

本研究提出了一种基于 BERT 的新度量方法，通过无监督对比学习，评估文档摘要的质量，并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。

Oct, 2020

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023