BLEU 不适合于文本简化的评估
本文探讨了针对在无参考文本的情况下,对简化文本进行质量估计的多种方法,并基于 QATS 2016 的数据集对多个方法进行了比较,最终发现基于 n-gram 的机器翻译度量(如 BLEU 和 METEOR)最能与语法正确性和意义保留的人工评估相匹配,而基于长度的度量方法则最适合衡量简明易懂程度。
Jan, 2019
本研究提出 CodeBLEU 作为一种新的自动代码评估指标,它可通过 n-gram 匹配吸收 BLEU 的优点,并通过抽象语法树和数据流注入代码语法和语义,实现对三种代码合成任务的质量评估,结果表明,与 BLEU 和准确性相比,我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。
Sep, 2020
机器翻译衡量指标 BLEU 存在参数化问题,可采用 WMT 会议上的 BLEU 方案,同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。
Apr, 2018
本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合,通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标,提高了最新状态下的机器翻译评估方法的稳健性,从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。
May, 2023
本研究通过比较不同收集参考文献的方法,找到了提高机器翻译自动测量与人工评估相关性的关键。同时,提出了基于语言学家的改写任务,解决了传统参考文献的单调性问题,它不仅能够提高 WMT 2019 英德翻译的相关性,而且对于后翻译和 APE 增强的 MT 输出,同样具有良好的表现。
Apr, 2020
本研究通过在 Bilingual Evaluation Understudy(BLEU)评估技术上进行改进,提出了一种适应人类评估的评估技术,该技术可以考虑包括同义词和词序在内的变化,并且与现有的评估方法相比,有较好的改进和相关性。
Sep, 2015
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
该研究回顾了 BLEU 和 ROUGE 两种不足,并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。
Sep, 2019
本文针对样式转移的标准评估方法提出了几个问题,为了解决这些问题,我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试,并提出了三种优于现有技术的新体系结构。
Aug, 2019
本文提出了一种新型的自动评估方法 BlonDe,通过将话语连贯性考虑在内来扩大自动翻译评估的范围,从句子级别提高到文档级别,该方法能够更好地区分文档级别的翻译质量改进和句子级别的改进,并且具有更好的判别性、可解释性和敏感性。在大规模的人类研究中,BlonDe 也成功地取得了比前期评估指标更高的 Pearson r 相关度。
Mar, 2021