探究人机评估并行口语翻译的相关性

Jun, 2024

探究人机评估并行口语翻译的相关性

Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation

Xiaoman Wang, Claudio Fantinuoli

TL;DR评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Abstract

Assessing the performance of interpreting services is a complex task, given the nuanced nature of spoken language translation, the strategies that interpreters apply, and the diverse expectations of users. The complexity of this task become even more pronounced when →

interpreting services automated evaluation methods simultaneous interpretations translation accuracy gpt models

发现论文，激发创造

MT Metrics 与人类对同声传译的评分相关

对英德语同声传译任务的候选系统进行评估时，离线机器翻译指标与连续评分器（CR）有很强的相关性，因此可以可靠地用于同时模式下的机器翻译评估，从而减轻了人工评估的需求。

Nov, 2022

同声传译员表现的自动评估

提出了一种通过建立质量评估 (quality estimation) 方法来预测同声传译工作表现的任务，利用新颖的特征和方法达到了更好的预测准确性

May, 2018

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

评估语音翻译的评估指标

本文评估了目前针对语音翻译的指标，并评估了不同评估方法在方言变体翻译上的影响。同时表明先前使用的自动度量标准最适合于标准化高资源语言。

Oct, 2021

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

评估人机语言翻译平衡性的建议

研究发现 2018 年 Hassan 等人的评估设计有问题，导致其认为人工翻译和机器翻译有同等水平的结论不准确，因此需要重新审视现有的评估方法，并且提出了一系列改进建议。

Apr, 2020

SimulEval：一款用于同时翻译评估的工具包

SimulEval 是一个易于使用、面向同时文本和语音翻译的通用评估工具包，通过客户端执行自定义策略实现同时解码，自动执行同时解码并收集几个流行的延迟度量。

Jul, 2020

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022