Jun, 2023

使用符合预测分布评估机器翻译质量

TL;DR本文介绍了一种新的评估机器翻译不确定性的方法,通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间,意味着对于任何给定的显著性水平,我们可以预期翻译的真实质量得分以$1-ε$的速率落在区间之外。在本文中,我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线,从覆盖率和锐度的角度进行评估。此外,我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。