探究人机评估并行口语翻译的相关性
对英德语同声传译任务的候选系统进行评估时,离线机器翻译指标与连续评分器(CR)有很强的相关性,因此可以可靠地用于同时模式下的机器翻译评估,从而减轻了人工评估的需求。
Nov, 2022
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。
Jun, 2024
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
研究发现 2018 年 Hassan 等人的评估设计有问题,导致其认为人工翻译和机器翻译有同等水平的结论不准确,因此需要重新审视现有的评估方法,并且提出了一系列改进建议。
Apr, 2020
SimulEval 是一个易于使用、面向同时文本和语音翻译的通用评估工具包,通过客户端执行自定义策略实现同时解码,自动执行同时解码并收集几个流行的延迟度量。
Jul, 2020
本文讨论了在自然语言生成领域中,自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明,根据使用系统级或句子级相关性分析,自动评分和人类判断之间的相关性结果是不一致的。
May, 2018
提出一种新的指标 XSTS,用于语义等效性评估,以及一种跨语言校准方法,旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证,证明了其有效性。
May, 2022