BLEU 或许有罪但参考文献并不无辜
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020
自动机器翻译度量通常使用人工翻译来确定质量系统翻译,然而在这篇论文中我们发现,高质量的参考翻译可以提高度量与人类之间的相关性,并通过对多个参考翻译取平均值来改善所有度量的效果,这些发现可用于共享任务的评估者在特定预算下创建参考翻译以最大化度量的成功。
Jan, 2024
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
通过使用大型多语言模型的概率作为参考度量标准,本文尝试了各种修改以推进无参考评估,并且分析了一些潜在的弱点,结果表明这种方法是出乎意料的稳健,可能在广泛领域和系统质量方面提供合理的性能。
Apr, 2021
N-gram 匹配评估指标,如 BLEU 和 chrF,在各种自然语言生成(NLG)任务中被广泛使用。然而,最近的研究发现,这些基于匹配的指标与人类评估之间存在较弱的相关性,尤其与 BLEURT 等基于神经网络的指标相比。在本文中,我们假设匹配指标的性能瓶颈可能是由于参考文献的多样性有限所致。为了解决这个问题,我们提出利用多个参考文献来增强这些指标与人类评估之间的一致性。在 WMT Metrics 基准测试中,我们观察到多参考文献的 F200spBLEU 比传统的单参考文献提高了 7.2%的准确度,而且它还超过了基于神经网络的 BERTscore 3.9%的准确度提升。此外,我们观察到大型语言模型(LLMs)中的数据泄漏问题在很大程度上可以通过我们的多参考文献指标得到缓解。我们在 https://github.com/SefaZeng/LLM-Ref 上发布了代码和数据。
Aug, 2023
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。
Mar, 2024
机器翻译衡量指标 BLEU 存在参数化问题,可采用 WMT 会议上的 BLEU 方案,同时提供新工具 SacreBLEU 以避免标准化及标记化不一致问题。
Apr, 2018
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020