ICLRJan, 2024

MT-Ranker: 无参考系统间排序的机器翻译评估

TL;DR机器翻译评估已被传统上视为回归问题,但这种方法存在两个限制:缺乏可解释性且人工评注者难以给出一致的分数;在真实的场景中,大多数评分方法基于(参考翻译)对,限制了它们的适用性。本研究提出一种新的评估方法,将无参考机器翻译评估转化为配对排序问题,并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下,在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果,在包含细粒度评估标准的更有挑战的基准测试 ACES 上,MT-Ranker 在无参考和参考基准线上表现出最先进的水平。