MT-Ranker: 无参考系统间排序的机器翻译评估

ICLRJan, 2024

MT-Ranker: 无参考系统间排序的机器翻译评估

MT-Ranker: Reference-free machine translation evaluation by inter-system ranking

Ibraheem Muhammad Moosa, Rui Zhang, Wenpeng Yin

TL;DR机器翻译评估已被传统上视为回归问题，但这种方法存在两个限制：缺乏可解释性且人工评注者难以给出一致的分数；在真实的场景中，大多数评分方法基于（参考翻译）对，限制了它们的适用性。本研究提出一种新的评估方法，将无参考机器翻译评估转化为配对排序问题，并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下，在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果，在包含细粒度评估标准的更有挑战的基准测试 ACES 上，MT-Ranker 在无参考和参考基准线上表现出最先进的水平。

Abstract

Traditionally, Machine Translation (MT) Evaluation has been treated as a regression problem -- producing an absolute translation-quality score. This approach has two limitations: i) the scores lack interpretability

machine translation evaluation regression problem interpretability reference-free mt evaluation mt-ranker

发现论文，激发创造

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

跨语言编码器的局限性：基于无参考机器翻译评估的揭示

研究跨语言编码器在自然对抗机器翻译系统中的参照无机器翻译评估问题，找到该方法的两个关键限制并提出两种部分解决方案。

May, 2020

通过零样式改写实现多语言自动机器翻译评估

使用序列到序列的释义器作为人类参考的评估工具，将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务，将释义器训练为多语言 NMT 系统，并将其应用于质量估计任务中，以条件化源，而不是参考，发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。

Apr, 2020

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量

本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。

Jan, 2023

评估最佳参考翻译

使用 “最佳参考翻译” 文档级可靠翻译的方法，我们提出了一种针对高资源环境中翻译质量的方法，并发现了评估与翻译编辑之间的关系。

Nov, 2023

USCORE: 机器翻译完全无监督评价度量的有效方法

本研究开发了全无监督评估指标，利用评估指标的彼此相似性和协同作用、平行语料库挖掘和机器翻译系统等方法，以及迭代地挖掘伪平行数据、对不足的基础矢量空间重新映射并诱导无监督机器翻译系统，最终提供伪参考作为度量的附加组件，同时还利用伪平行数据诱导无监督多语言句子嵌入。结果表明，我们的全无监督度量是有效的，在 5 个数据集中的 4 个上打败了监督竞争对手。

Feb, 2022