May, 2024

自动指标能否评估高质量翻译?

TL;DR当前的自动评估翻译质量的度量方法往往只关注区分优劣翻译对的能力,忽视了对相同原文的各种翻译的可靠性。本文通过实验证实了这一点,并表明目前的度量方法对翻译质量中微妙的差异不敏感。鉴于这一发现,我们转向检测高质量的正确翻译,这在实际决策场景中优先考虑正确性而非细致评估质量十分重要。我们以 MQM 框架作为黄金标准,系统地压力测试了当前度量方法对人工标记为无误的翻译的能力。我们的发现揭示了当前度量方法往往对翻译质量过高或低估,表明自动评估方法有很大的改进空间。