COLINGJun, 2024

评估 IWSLT2023 语音翻译任务:人工标注、自动评估和分割

TL;DR从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。