经过训练的机器翻译度量指标学会适应机器翻译的参考译文

Dec, 2023

经过训练的机器翻译度量指标学会适应机器翻译的参考译文

Trained MT Metrics Learn to Cope with Machine-translated References

Jannis Vamvas, Tobias Domhan, Sony Trenous, Rico Sennrich, Eva Hasler

TL;DR通过对机器翻译（MT）的人类评估训练的神经度量标准进行控制实验，将未经人类评估培训的基准度量标准（Prism）与经过培训的同一度量标准（Prism+FT）进行比较。令人惊讶的是，Prism+FT 对于机器翻译参考文献的鲁棒性更强，而这在 MT 评估中是一个臭名昭著的问题。这表明度量标准训练的效果超出了改善与人类判断整体相关性的预期效果。

Abstract

neural metrics trained on human evaluations of MT tend to correlate well with human judgments, but their behavior is not fully understood. In this paper, we perform a controlled experiment and compare a baseline

neural metrics human evaluations machine translation mt evaluation metric training

发现论文，激发创造

令人尴尬的简单文档级机器翻译度量方法：如何将任何预训练度量转化为文档级度量

通过在文档级别引入上下文内容，可以扩展当前基于句子级别的机器翻译度量，提高翻译质量和准确性。

Sep, 2022

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

细调的机器翻译度量在未知领域中面临困难

我们引入了一个新的广泛的多维质量度量（MQM）注释数据集，涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时，是否基于人工生成的机器翻译质量评判进行微调的机器翻译（MT）度量指标是否具有稳健性。我们发现，在未知领域情况下，经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比，表现出显著的性能降低。

Feb, 2024

基于参考文献的自动代词翻译评估没抓住重点

我们比较了 APT 和 AutoPRF 指标在代词翻译方面的性能，并将其与人工标注的数据集进行了比较。虽然与人工判断存在一定的相关性，但多种问题限制了自动指标的性能。因此，我们建议使用半自动的指标和测试套件代替完全自动的指标。

Aug, 2018

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020

机器翻译自动评估指标中参考翻译的质量和数量

自动机器翻译度量通常使用人工翻译来确定质量系统翻译，然而在这篇论文中我们发现，高质量的参考翻译可以提高度量与人类之间的相关性，并通过对多个参考翻译取平均值来改善所有度量的效果，这些发现可用于共享任务的评估者在特定预算下创建参考翻译以最大化度量的成功。

Jan, 2024

BLEURT 具有通用翻译能力：最小风险训练下自动度量分析

自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。

Jul, 2023

质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量

本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。

Jan, 2023

MMTE：评估隐喻语言机器翻译质量的语料库和度量

机器翻译的评估方法主要关注流畅度和事实可靠性，而对比喻质量关注较少。本文研究机器翻译的比喻质量，并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库，并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察，我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。

Jun, 2024