BLEU 的黑箱：重新评估自动机器翻译评估指标

ACLJun, 2020

BLEU 的黑箱：重新评估自动机器翻译评估指标

Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

Nitika Mathur, Timothy Baldwin, Trevor Cohn

TL;DR研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Abstract

automatic metrics are fundamental for the development and evaluation of machine translation systems. Judging whether, and to what extent, automatic metrics concur with the gold standard of →

automatic metrics machine translation systems human evaluation system performance evaluation pairwise system ranking

发现论文，激发创造

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

自动指标能否评估高质量翻译？

当前的自动评估翻译质量的度量方法往往只关注区分优劣翻译对的能力，忽视了对相同原文的各种翻译的可靠性。本文通过实验证实了这一点，并表明目前的度量方法对翻译质量中微妙的差异不敏感。鉴于这一发现，我们转向检测高质量的正确翻译，这在实际决策场景中优先考虑正确性而非细致评估质量十分重要。我们以 MQM 框架作为黄金标准，系统地压力测试了当前度量方法对人工标记为无误的翻译的能力。我们的发现揭示了当前度量方法往往对翻译质量过高或低估，表明自动评估方法有很大的改进空间。

May, 2024

机器翻译研究的科学可信度：769 篇论文的元评估

本文是机器翻译评估的第一篇大规模元评估，发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估，并提出了一个简单的元评估评分方法来评估其可靠性。

Jun, 2021

BLEURT 具有通用翻译能力：最小风险训练下自动度量分析

自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。

Jul, 2023

在线学习与机器翻译评估：以最少的人力努力找到最佳系统

基于在线学习的机器翻译自动化指标优化方法，通过对多个语言对进行评估，快速收敛于表现最佳的前三个系统。

May, 2021

自然语言评估中去偏置自动度量的代价

本文提出使用控制变量方法，结合自动评价指标与人工评价来获取代价较低的无偏估计，在对文摘和开放式问题回答进行评估时，可以实现 7-13% 的代价降低，同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。

Jul, 2018

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022