Feb, 2024

细调的机器翻译度量在未知领域中面临困难

TL;DR我们引入了一个新的广泛的多维质量度量(MQM)注释数据集,涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时,是否基于人工生成的机器翻译质量评判进行微调的机器翻译(MT)度量指标是否具有稳健性。我们发现,在未知领域情况下,经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比,表现出显著的性能降低。