报告 BLEU 分数需要更清晰明确的呼吁

Apr, 2018

报告 BLEU 分数需要更清晰明确的呼吁

A Call for Clarity in Reporting BLEU Scores

Matt Post

TL;DR机器翻译衡量指标 BLEU 存在参数化问题，可采用 WMT 会议上的 BLEU 方案，同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。

Abstract

The field of machine translation faces an under-recognized problem because of inconsistency in the reporting of scores from its dominant metric. Although people refer to "the" →

machine translation metric bleu tokenization normalization

发现论文，激发创造

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

CodeBLEU: 一种自动评估代码合成的方法

本研究提出 CodeBLEU 作为一种新的自动代码评估指标，它可通过 n-gram 匹配吸收 BLEU 的优点，并通过抽象语法树和数据流注入代码语法和语义，实现对三种代码合成任务的质量评估，结果表明，与 BLEU 和准确性相比，我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。

Sep, 2020

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

度量迷宫导航：调和分数幅度和准确性

本文研究了现代测量方法的 “动态范围”，旨在提供有关分数差异的集体理解，包括在测量之间以及内部分数之间的意义，即我们问对于人类来说，系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估，使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值，我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下，我们还探讨了指标差异和准确性对于更细粒度特征的影响，例如翻译方向、领域和系统接近程度。

Jan, 2024

机器翻译研究的科学可信度：769 篇论文的元评估

本文是机器翻译评估的第一篇大规模元评估，发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估，并提出了一个简单的元评估评分方法来评估其可靠性。

Jun, 2021

增强的双语评估助手

本研究通过在 Bilingual Evaluation Understudy（BLEU）评估技术上进行改进，提出了一种适应人类评估的评估技术，该技术可以考虑包括同义词和词序在内的变化，并且与现有的评估方法相比，有较好的改进和相关性。

Sep, 2015

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

文本风格转移：重新训练、汇报错误、与重写比较

本文针对样式转移的标准评估方法提出了几个问题，为了解决这些问题，我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试，并提出了三种优于现有技术的新体系结构。

Aug, 2019

提高 BLEU 参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020