报告 BLEU 分数需要更清晰明确的呼吁
本研究通过比较不同收集参考文献的方法,找到了提高机器翻译自动测量与人工评估相关性的关键。同时,提出了基于语言学家的改写任务,解决了传统参考文献的单调性问题,它不仅能够提高 WMT 2019 英德翻译的相关性,而且对于后翻译和 APE 增强的 MT 输出,同样具有良好的表现。
Apr, 2020
本研究提出 CodeBLEU 作为一种新的自动代码评估指标,它可通过 n-gram 匹配吸收 BLEU 的优点,并通过抽象语法树和数据流注入代码语法和语义,实现对三种代码合成任务的质量评估,结果表明,与 BLEU 和准确性相比,我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。
Sep, 2020
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020
本文研究了现代测量方法的 “动态范围”,旨在提供有关分数差异的集体理解,包括在测量之间以及内部分数之间的意义,即我们问对于人类来说,系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估,使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值,我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下,我们还探讨了指标差异和准确性对于更细粒度特征的影响,例如翻译方向、领域和系统接近程度。
Jan, 2024
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
本研究通过在 Bilingual Evaluation Understudy(BLEU)评估技术上进行改进,提出了一种适应人类评估的评估技术,该技术可以考虑包括同义词和词序在内的变化,并且与现有的评估方法相比,有较好的改进和相关性。
Sep, 2015
本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合,通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标,提高了最新状态下的机器翻译评估方法的稳健性,从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。
May, 2023
本文针对样式转移的标准评估方法提出了几个问题,为了解决这些问题,我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试,并提出了三种优于现有技术的新体系结构。
Aug, 2019
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020