Dec, 2023

经过训练的机器翻译度量指标学会适应机器翻译的参考译文

TL;DR通过对机器翻译(MT)的人类评估训练的神经度量标准进行控制实验,将未经人类评估培训的基准度量标准(Prism)与经过培训的同一度量标准(Prism+FT)进行比较。令人惊讶的是,Prism+FT 对于机器翻译参考文献的鲁棒性更强,而这在 MT 评估中是一个臭名昭著的问题。这表明度量标准训练的效果超出了改善与人类判断整体相关性的预期效果。