Nov, 2023

WMT 2023年ACES:翻译准确度挑战集

TL;DR通过使用ACES Challenge Set作为评估标准,我们对提交给WMT 2023的分段级别指标的性能进行基准测试,发现没有明显的优胜者,并且在2023和2022版本之间的性能变化高度不确定。我们建议指标开发者着重构建来自不同设计家族的指标集合,开发更加注重源信息并减少表面重叠依赖的指标,并仔细确定多语言嵌入对机器翻译评估的影响。