Mar, 2022

预训练的 Wav2Vec 2.0 在领域转移语音识别方面的表现如何?对空中交通管制通讯进行了广泛的基准测试

TL;DR本研究旨在探讨在预训练和 fine-tuning 阶段数据属性存在实质性差异的情况下,在空中交通管制数据上分析 Wav2Vec 2.0 和 XLS-R 模型的鲁棒性,结果显示,通过只使用已标注数据的较小部分来对 E2E 声学模型进行 fine-tuning,相对于基于混合式 ASR 基线的声学模型,可以在几个开源且具有挑战性的 ATC 数据库中实现 20%至 40%的相对字错率降低,并分析了一种 ATC 数据集中的低资源和性别偏见的情况。