翻译质量测量的多范围理论:MQM 评分模型和统计质量控制
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出 AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2,通过简单的得分预测提示,发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
Aug, 2023
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
当前的自动评估翻译质量的度量方法往往只关注区分优劣翻译对的能力,忽视了对相同原文的各种翻译的可靠性。本文通过实验证实了这一点,并表明目前的度量方法对翻译质量中微妙的差异不敏感。鉴于这一发现,我们转向检测高质量的正确翻译,这在实际决策场景中优先考虑正确性而非细致评估质量十分重要。我们以 MQM 框架作为黄金标准,系统地压力测试了当前度量方法对人工标记为无误的翻译的能力。我们的发现揭示了当前度量方法往往对翻译质量过高或低估,表明自动评估方法有很大的改进空间。
May, 2024
本文提出了一种基于多维质量度量(Multidimensional Quality Metrics,MQM)误差分类的手动评估方法,以评估不同机器翻译系统之间的性能差异是否显著,针对英语到克罗地亚语这一翻译方向,比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统,发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。
Feb, 2018
本研究使用 UniTE 框架,通过预训练语言模型的三种输入格式进行训练,并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型(XLM-R 和 InfoXLM)的预测进行集成,取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现,表明了相对强的性能。
Oct, 2022
这篇论文介绍了 GEMBA-MQM,它是一种基于 GPT 的评估指标,专门用于检测翻译质量错误,尤其适用于无需人工参考翻译的质量估计设置。基于大型语言模型(LLM)的强大能力,GEMBA-MQM 采用了固定的三步提示技术,查询 GPT-4 模型以标记错误质量范围。与以前的工作相比,我们的方法具有语言无关的提示,因此避免了为新语言进行手动提示准备。尽管初步结果表明,GEMBA-MQM 在系统排名上达到了最先进的准确性,但鉴于其依赖专有的黑盒 GPT 模型,我们建议在学术论文中谨慎使用它以展示相对于其他方法的改进。
Oct, 2023
我们引入了一个新的广泛的多维质量度量(MQM)注释数据集,涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时,是否基于人工生成的机器翻译质量评判进行微调的机器翻译(MT)度量指标是否具有稳健性。我们发现,在未知领域情况下,经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比,表现出显著的性能降低。
Feb, 2024
机器翻译评估中,综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与,而只赋予整体评分,如直接评估 (DA),虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA),将 DA 的连续评分与 MQM 的高级错误严重程度标记相结合。通过与 12 个 MT 系统和一份人工参考翻译 (英语到德语) 从 WMT23 的 MQM 和 DA 进行比较,验证了 ESA 的有效性。结果显示 ESA 在具有相同质量水平的情况下比 MQM 更快且更便宜,无需昂贵的 MQM 专家。
Jun, 2024
机器翻译质量评估(MTQE)是实时估计机器翻译文本质量的任务,不需要参考翻译,对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。
Mar, 2024