多维机器翻译评估：韩语模型评估和资源

COLINGMar, 2024

多维机器翻译评估：韩语模型评估和资源

Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean

Dojun Park, Sebastian Padó

TL;DR通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Abstract

Almost all frameworks for the manual or automatic evaluation of machine translation characterize the quality of an MT output with a single number. An exception is the multidimensional quality metrics (MQM) framework which offers a fine-grained ontology of quality dimensions for scoring

machine translation multidimensional quality metrics mqm annotation mt evaluation rembert

发现论文，激发创造

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过简单的得分预测提示，发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

翻译质量测量的多范围理论：MQM 评分模型和统计质量控制

该论文详细介绍了最新的 MQM 发展，并提出了一种适用于三种样本大小范围的通用翻译质量测量方法，还介绍了为非常小的样本大小采用统计质量控制的原因，起点为单个句子。

May, 2024

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

细调的机器翻译度量在未知领域中面临困难

我们引入了一个新的广泛的多维质量度量（MQM）注释数据集，涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时，是否基于人工生成的机器翻译质量评判进行微调的机器翻译（MT）度量指标是否具有稳健性。我们发现，在未知领域情况下，经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比，表现出显著的性能降低。

Feb, 2024

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

从手工特征到 LLMs：机器翻译质量估计的简要调查

机器翻译质量评估（MTQE）是实时估计机器翻译文本质量的任务，不需要参考翻译，对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。

Mar, 2024

对文本数据集评估多模态翻译模型的理由

提出了一个评估框架，用于评估多模式机器翻译模型在利用视觉信息辅助翻译任务和翻译复杂句子方面的能力，并通过使用 CoMMuTE 评估框架、WMT 新闻翻译任务测试集和 Multi30k 测试集来评估多模式机器翻译模型的性能，发现这些模型在面对纯文本翻译时表现下降。

Mar, 2024