MT Metrics 与人类对同声传译的评分相关
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。
Jun, 2024
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。
Jun, 2024
研究了多语种自动语音识别中的代码切换问题,提出了基于人工判断的评价指标,并通过多种指标的比较得到了最优方法 —— 采用音译和文本规范化,同时发布了第一个阿拉伯语 / 英语对话语境中人类接受度的语料库。
Nov, 2022
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合,通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标,提高了最新状态下的机器翻译评估方法的稳健性,从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。
May, 2023
机器翻译的评估方法主要关注流畅度和事实可靠性,而对比喻质量关注较少。本文研究机器翻译的比喻质量,并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库,并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察,我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。
Jun, 2024
本文讨论了在自然语言生成领域中,自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明,根据使用系统级或句子级相关性分析,自动评分和人类判断之间的相关性结果是不一致的。
May, 2018
通过对机器翻译(MT)的人类评估训练的神经度量标准进行控制实验,将未经人类评估培训的基准度量标准(Prism)与经过培训的同一度量标准(Prism+FT)进行比较。令人惊讶的是,Prism+FT 对于机器翻译参考文献的鲁棒性更强,而这在 MT 评估中是一个臭名昭著的问题。这表明度量标准训练的效果超出了改善与人类判断整体相关性的预期效果。
Dec, 2023