细调的机器翻译度量在未知领域中面临困难

Feb, 2024

细调的机器翻译度量在未知领域中面临困难

Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains

Vilém Zouhar, Shuoyang Ding, Anna Currey, Tatyana Badeka, Jenyuan Wang...

TL;DR我们引入了一个新的广泛的多维质量度量（MQM）注释数据集，涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时，是否基于人工生成的机器翻译质量评判进行微调的机器翻译（MT）度量指标是否具有稳健性。我们发现，在未知领域情况下，经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比，表现出显著的性能降低。

Abstract

We introduce a new, extensive multidimensional quality metrics (MQM) annotated dataset covering 11 language pairs in the biomedical domain. We use this dataset to investigate whether →

multidimensional quality metrics machine translation biomedical domain domain shifts fine-tuned metrics

发现论文，激发创造

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021

内部故事：迈向更好理解机器翻译神经评估指标

本文研究了神经度量与传统度量方法在评估机器翻译中的差异，并开发了多种神经可解释性方法来解释这些度量方法，并证明这些方法能够有效地分析翻译错误，促进未来的研究。

May, 2023

医疗领域中领域适应的多语言神经机器翻译的影响

研究调整后的多领域神经机器翻译模型在医学领域的表现，通过自动度量和错误分类注释后的人工分析发现，与领域外的 MNMT 相比，领域内的 MNMT 在所有测量的自动度量上表现更好，并且产生更少的术语错误。

Dec, 2022

困难感知机器翻译评估

提出一种考虑翻译难度的机器翻译评估方法，结果显示在 WMT19 上表现出色。

Jul, 2021

IndicMT Eval：用于评估印度语机器翻译度量的数据集

本文旨在创建一个 MQM 数据集，以系统地评估 7 个机器翻译系统中 5 种印度语言的翻译质量，并探讨自动化评估指标和人工评分之间的相关性。结果表明预先训练的指标 COMET 与人工评分相关性最高，但这些指标并未恰当地捕捉印度语言中的流畅性错误，因此需要开发注重印度语言的度量指标。

Dec, 2022

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过简单的得分预测提示，发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

机器翻译评估中的不确定性分解

本文提出了一种针对机器翻译 Uncertainty Prediction 的新型强大高效的不确定性预测器，在不同的数据集和应用场景中具有明显的降低计算成本和提高预测准确度的效果。

Apr, 2022

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021