Dec, 2022

机器翻译指标外部评估

TL;DR本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中MT度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的MT度量(chrF,COMET,BERTScore等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的MT指标应该被设计成产生错误标签而不是得分,以便于外在评估。