评估语音翻译的评估指标

Oct, 2021

Assessing Evaluation Metrics for Speech-to-Speech Translation

Elizabeth Salesky, Julian Mäder, Severin Klinger

TL;DR本文评估了目前针对语音翻译的指标，并评估了不同评估方法在方言变体翻译上的影响。同时表明先前使用的自动度量标准最适合于标准化高资源语言。

Abstract

speech-to-speech translation combines machine translation with speech synthesis, introducing evaluation challenges not present in either task alone. How to automatically evaluate →

speech-to-speech translation evaluation dialectal variants automatic metric high-resource languages

发现论文，激发创造

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

针对混合语言自动语音识别的基准评估指标

研究了多语种自动语音识别中的代码切换问题，提出了基于人工判断的评价指标，并通过多种指标的比较得到了最优方法 —— 采用音译和文本规范化，同时发布了第一个阿拉伯语 / 英语对话语境中人类接受度的语料库。

Nov, 2022

低延迟同时语音翻译的端到端评估

低延迟语音翻译的评估框架：该研究提出了第一个在真实场景下执行和评估低延迟语音翻译各个方面的框架，通过对音频分割和不同组件运行时间的评估，比较可修订输出模型和固定输出方法，对比级联和端到端系统，并自动评估翻译质量和延迟，并提供网页接口展示低延迟模型输出给用户。

Aug, 2023

评估方言机器翻译度量的基准（无标准拼写法）

评估自然语言处理中评价指标对非标准化方言的鲁棒性，发现现有指标在对瑞士德语文本生成输出的评估上存在困难，提出了增加鲁棒性的初步设计方案。

Nov, 2023

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

在段落级别上训练和元评估机器翻译评估指标

机器翻译中，自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法，并利用这些新数据集对现有句子级指标进行基准测试，以及在段落级训练学习指标。有趣的是，我们的实验结果表明，使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种现象方面的局限性。

Aug, 2023