ACES: 机器翻译指标评估的翻译准确性挑战集
介绍了一个跨越 146 种语言对的对比挑战集 ACES,以发现度量标准是否能够识别 68 种翻译准确性错误,并通过对 WMT 2022 和 2023 度量标准共享任务中的 50 个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性。结果显示,不同的度量标准家族在不同的现象上存在困难,并且基于大型语言模型的方法的可靠性表现不佳。扩展了 ACES 以包括错误跨度注释,称为 SPAN-ACES,并使用该数据集评估基于跨度的错误度量,结果表明这些度量标准还需要较大改进。最后,提供了构建更好的机器翻译度量标准的一些建议,包括专注于错误标签而非分数,融合多个度量标准,设计明确专注于源句的策略,专注于语义内容,并选择适合的基本模型来进行表示。
Jan, 2024
通过使用 ACES Challenge Set 作为评估标准,我们对提交给 WMT 2023 的分段级别指标的性能进行基准测试,发现没有明显的优胜者,并且在 2023 和 2022 版本之间的性能变化高度不确定。我们建议指标开发者着重构建来自不同设计家族的指标集合,开发更加注重源信息并减少表面重叠依赖的指标,并仔细确定多语言嵌入对机器翻译评估的影响。
Nov, 2023
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
我们研究了对抗性合成文本上的机器翻译评估指标的性能,以阐明指标的稳健性。我们对三个流行的机器翻译指标(BERTScore、BLEURT 和 COMET)进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了 BERTScore 评级的不一致性,在判断原始句子和对抗性降级句子相似的同时,将降级翻译与参考文献相比较,判断其比原始句子明显更差。我们确定了一些脆弱性模式,从而推动更稳健的指标开发。
Nov, 2023
我们介绍了一个数据集,它包含了在 12 个翻译方向上,在六年时间内每周收集的商业机器翻译。我们假设商业系统会随着时间改进,这使我们能够评估基于对最近翻译的偏好的机器翻译度量标准。我们的研究确认了机器翻译度量研究中的几个之前的发现,并展示了该数据集作为度量评估的测试平台的价值。我们将我们的代码发布在此 https URL
Jul, 2024
本研究探讨了 translationese 对机器翻译测试数据的影响,发现使用 translationese 会导致 MT 系统的人工评估得分被高估,在某些情况下甚至会改变系统的排名,并且其影响与该翻译方向上现有 MT 系统的质量成反相关。
Jun, 2019