针对混合语言自动语音识别的基准评估指标
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2023)中几项共享任务的结果进行全面人类评估,填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论:1) 提出的评估策略稳健,与其他类型的人类判断得分相关性很好;2) 自动指标通常与直接评估得分相关性较好,但不总是如此;以及 3) 虽然通过重新分割步骤引入了分割噪声,但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究,我们发布了收集到的人类标注数据。
Jun, 2024
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。
Jun, 2024
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
Jul, 2021
我们介绍了一个新的零资源代码切换语音基准,旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统,以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是,尽管我们的结果表明,在代码切换场景中,具有多语言预训练的语音编码器(如 XLSR)优于单语变体(Wav2vec 2.0、HuBERT),但它们的代码切换语言能力仍有很大的改进空间。
Oct, 2023
本文研究语言建模在代表代码切换语言的语境下在自动语音识别(ASR)中所存在的难题,针对三个难点分别提出解决方案:如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷,我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式,并采用一种判别式训练方法,证明其比生成式更加有效。最后,我们探索了多种训练协议,并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。
Oct, 2018
研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现,考察其对录音和语音单元的性能,并且提出评估指标的局限性和可能导致算法偏差的问题。
May, 2023
本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法,以及探索从 ASR 模型中提取混合文本的不同方法,并通过比较混杂度和其他不同指标(如 WER)的结果与标准的双语文本输出来说明模型的稳健性。
Jun, 2020
对英德语同声传译任务的候选系统进行评估时,离线机器翻译指标与连续评分器(CR)有很强的相关性,因此可以可靠地用于同时模式下的机器翻译评估,从而减轻了人工评估的需求。
Nov, 2022