针对混合语言自动语音识别的基准评估指标

Nov, 2022

针对混合语言自动语音识别的基准评估指标

Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition

Injy Hamed, Amir Hussein, Oumnia Chellah, Shammur Chowdhury, Hamdy Mubarak...

TL;DR研究了多语种自动语音识别中的代码切换问题，提出了基于人工判断的评价指标，并通过多种指标的比较得到了最优方法 —— 采用音译和文本规范化，同时发布了第一个阿拉伯语 / 英语对话语境中人类接受度的语料库。

Abstract

code-switching poses a number of challenges and opportunities for multilingual automatic speech recognition. In this paper, we focus on the question of robust and fair →

code-switching speech recognition evaluation metrics correlation transliteration

发现论文，激发创造

评估方言机器翻译度量的基准（无标准拼写法）

评估自然语言处理中评价指标对非标准化方言的鲁棒性，发现现有指标在对瑞士德语文本生成输出的评估上存在困难，提出了增加鲁棒性的初步设计方案。

Nov, 2023

评估语音翻译的评估指标

本文评估了目前针对语音翻译的指标，并评估了不同评估方法在方言变体翻译上的影响。同时表明先前使用的自动度量标准最适合于标准化高资源语言。

Oct, 2021

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

我们介绍了一个新的零资源代码切换语音基准，旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统，以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是，尽管我们的结果表明，在代码切换场景中，具有多语言预训练的语音编码器（如 XLSR）优于单语变体（Wav2vec 2.0、HuBERT），但它们的代码切换语言能力仍有很大的改进空间。

Oct, 2023

语言建模用于代码交替：评估、整合单语数据和判别式训练

本文研究语言建模在代表代码切换语言的语境下在自动语音识别（ASR）中所存在的难题，针对三个难点分别提出解决方案：如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷，我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式，并采用一种判别式训练方法，证明其比生成式更加有效。最后，我们探索了多种训练协议，并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。

Oct, 2018

探究语言识别模型的性能：超越简单的错误统计

研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现，考察其对录音和语音单元的性能，并且提出评估指标的局限性和可能导致算法偏差的问题。

May, 2023

端到端的混合语言模型用于自动语音识别

本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法，以及探索从 ASR 模型中提取混合文本的不同方法，并通过比较混杂度和其他不同指标（如 WER）的结果与标准的双语文本输出来说明模型的稳健性。

Jun, 2020

MT Metrics 与人类对同声传译的评分相关

对英德语同声传译任务的候选系统进行评估时，离线机器翻译指标与连续评分器（CR）有很强的相关性，因此可以可靠地用于同时模式下的机器翻译评估，从而减轻了人工评估的需求。

Nov, 2022