xCOMET: 透明的机器翻译评估通过精细化错误检测

Oct, 2023

xCOMET: 透明的机器翻译评估通过精细化错误检测

xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection

Nuno M. Guerreiro, Ricardo Rei, Daan van Stigt, Luisa Coheur, Pierre Colombo...

TL;DR本研究介绍了一种名为 xCOMET 的开源学习度量方法，它融合了语句级评估和错误跨度检测能力，并展现出在各种评估类型（语句级、系统级和错误跨度检测）方面的最先进性能，同时突出和分类错误跨度，从而丰富了质量评估。通过稳健性分析和压力测试，我们还表明 xCOMET 在识别局部关键错误和产生幻觉方面有很强的能力。

Abstract

Widely used learned metrics for machine translation evaluation, such as COMET and BLEURT, estimate the quality of a translation hypothesis by providing a single sentence-level score. As such, they offer little in

learned metrics machine translation evaluation translation errors xcomet quality assessment

发现论文，激发创造

xCOMET-lite: 在学习的 MT 评估指标中实现效率与质量之间的平衡

利用精简和压缩技术，我们创建了高效的 xCOMET 替代方法，并使用黑盒蒸馏数据收集管道，实验证明，经过量化处理后，xCOMET 可以压缩至原体积的三分之一，且质量不降低；通过蒸馏，我们创建了一个 xCOMET-lite 度量方法，它仅含有 xCOMET-XXL 参数的 2.6%，但保持了 92.1% 的质量，并且在 WMT22 度量挑战数据集上比 COMET-22 和 BLEURT-20 等小规模方法提高了 6.4%，即使用的参数量减少了 50%。

Jun, 2024

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

COMET: 机器翻译评估的神经框架

介绍了 COMET，这是一个使用神经网络的多语言机器翻译评估模型，它利用了跨语言预训练语言建模的最新进展，通过同时使用源输入和目标语言的参考翻译来更准确地预测机器翻译的质量，并在 WMT 2019 指标共享任务中获得了新的最优表现，并展示了对高性能系统的鲁棒性。

Sep, 2020

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

AfriMTE 和 AfriCOMET：推动 COMET 接纳资源匮乏的非洲语言

通过创建人工评估数据和简化的 MQM 指南，以及利用高资源语言的 DA 训练数据和 AfroXLM-Roberta 多语言编码器，我们解决了多语言机器翻译在非洲语言方面的挑战，并创建了最先进的评估指标 AfriCOMET，得到了与人工判断的 Spearman-rank 相关系数为 +0.406。

Nov, 2023

COMET-QE 与主动学习在低资源机器翻译中的应用

本文研究了如何在资源稀缺情况下通过使用 COMET-QE 评估指标来选择句子用于低资源语言神经机器翻译，实验证明 COMET-QE 在句子选择方面比 RTTL 和随机选择句子等其他方法表现更好，可提高翻译结果的 BLEU 分数，并且在非常低资源的情况下具有很强的功效。

Oct, 2022

内部故事：迈向更好理解机器翻译神经评估指标

本文研究了神经度量与传统度量方法在评估机器翻译中的差异，并开发了多种神经可解释性方法来解释这些度量方法，并证明这些方法能够有效地分析翻译错误，促进未来的研究。

May, 2023

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022

DEMETR：用于翻译评估度量的诊断工具

本研究旨在探讨机器翻译评估指标的行为特征，通过 DEMETR 诊断性数据集、跨越语义、语法和形态学错误类别的 35 种不同语言扰动，发现学习评价指标表现比基于字符串的指标表现更好，而且它们对不同现象的敏感度不同，该研究公开了 DEMETR 以推动机器翻译评估指标的更多发展。

Oct, 2022