翻译质量测量的多范围理论：MQM 评分模型和统计质量控制

May, 2024

翻译质量测量的多范围理论：MQM 评分模型和统计质量控制

The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control

Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik...

TL;DR该论文详细介绍了最新的 MQM 发展，并提出了一种适用于三种样本大小范围的通用翻译质量测量方法，还介绍了为非常小的样本大小采用统计质量控制的原因，起点为单个句子。

Abstract

The year 2024 marks the 10th anniversary of the Multidimensional Quality Metrics (MQM) framework for analytic translation quality evaluation. The MQM error typology has been widely used by practitioners in the tr

multidimensional quality metrics mqm framework translation quality evaluation error typology scoring model

发现论文，激发创造

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过简单的得分预测提示，发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

自动指标能否评估高质量翻译？

当前的自动评估翻译质量的度量方法往往只关注区分优劣翻译对的能力，忽视了对相同原文的各种翻译的可靠性。本文通过实验证实了这一点，并表明目前的度量方法对翻译质量中微妙的差异不敏感。鉴于这一发现，我们转向检测高质量的正确翻译，这在实际决策场景中优先考虑正确性而非细致评估质量十分重要。我们以 MQM 框架作为黄金标准，系统地压力测试了当前度量方法对人工标记为无误的翻译的能力。我们的发现揭示了当前度量方法往往对翻译质量过高或低估，表明自动评估方法有很大的改进空间。

May, 2024

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

GEMBA-MQM: 用 GPT-4 检测翻译质量错误片段

这篇论文介绍了 GEMBA-MQM，它是一种基于 GPT 的评估指标，专门用于检测翻译质量错误，尤其适用于无需人工参考翻译的质量估计设置。基于大型语言模型（LLM）的强大能力，GEMBA-MQM 采用了固定的三步提示技术，查询 GPT-4 模型以标记错误质量范围。与以前的工作相比，我们的方法具有语言无关的提示，因此避免了为新语言进行手动提示准备。尽管初步结果表明，GEMBA-MQM 在系统排名上达到了最先进的准确性，但鉴于其依赖专有的黑盒 GPT 模型，我们建议在学术论文中谨慎使用它以展示相对于其他方法的改进。

Oct, 2023

细调的机器翻译度量在未知领域中面临困难

我们引入了一个新的广泛的多维质量度量（MQM）注释数据集，涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时，是否基于人工生成的机器翻译质量评判进行微调的机器翻译（MT）度量指标是否具有稳健性。我们发现，在未知领域情况下，经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比，表现出显著的性能降低。

Feb, 2024

错误跨度标注：人工评估机器翻译的平衡方法

机器翻译评估中，综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与，而只赋予整体评分，如直接评估 (DA)，虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA)，将 DA 的连续评分与 MQM 的高级错误严重程度标记相结合。通过与 12 个 MT 系统和一份人工参考翻译 (英语到德语) 从 WMT23 的 MQM 和 DA 进行比较，验证了 ESA 的有效性。结果显示 ESA 在具有相同质量水平的情况下比 MQM 更快且更便宜，无需昂贵的 MQM 专家。

Jun, 2024

从手工特征到 LLMs：机器翻译质量估计的简要调查

机器翻译质量评估（MTQE）是实时估计机器翻译文本质量的任务，不需要参考翻译，对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。

Mar, 2024