预训练的 Wav2Vec 2.0 在领域转移语音识别方面的表现如何？对空中交通管制通讯进行了广泛的基准测试

Mar, 2022

预训练的 Wav2Vec 2.0 在领域转移语音识别方面的表现如何？对空中交通管制通讯进行了广泛的基准测试

How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications

PDF

Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Saeed Sarfjoo, Petr Motlicek...

TL;DR本研究旨在探讨在预训练和 fine-tuning 阶段数据属性存在实质性差异的情况下，在空中交通管制数据上分析 Wav2Vec 2.0 和 XLS-R 模型的鲁棒性，结果显示，通过只使用已标注数据的较小部分来对 E2E 声学模型进行 fine-tuning，相对于基于混合式 ASR 基线的声学模型，可以在几个开源且具有挑战性的 ATC 数据库中实现 20％至 40％的相对字错率降低，并分析了一种 ATC 数据集中的低资源和性别偏见的情况。

Abstract

Recent work on self-supervised pre-training focus on leveraging large-scale unlabeled speech data to build robust end-to-end (E2E) acoustic models (AM) that can be later fine-tuned on downstream tasks e.g., automatic speech recognition (ASR). Yet, few works investigated the impact on p

self-supervised pre-training end-to-end acoustic models domain shift wav2vec 2.0 xls-r

发现论文，激发创造

稳健的 wav2vec 2.0：自监督预训练中的领域漂移分析

本文探讨了语音表示的自监督学习，其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形，试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。

Apr, 2021

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

无监督预训练在语音识别中的性能与效率的折衷

对预训练模型在自动语音识别中的性能和效率进行了研究，提出了一种新的模型架构 SEW，其在不同训练环境下都取得了良好的性能和效率。

Sep, 2021

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022

基于 Wav2vec2.0 的自动语音识别领域适应中继续预训练在小学数学课堂环境下的应用

通过持续预训练 (CPT)，我们研究了将 Wav2vec2.0 调整到课堂领域的有效性，结果表明 CPT 是一个强大的工具，可以将基于 Wav2vec2.0 的模型的词错误率（WER）降低 10% 以上，改善了模型对不同噪声、麦克风、课堂条件以及学生群体的适应能力。同时，我们的 CPT 模型在标记微调数据中未见过的不同人群中展示了更好的泛化能力。

May, 2024

在数据稀缺环境中利用 ASR 驱动的 Wav2Vec2 探索病态语音质量评估

自动语音质量评估中，由于数据稀缺，大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法，通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器，将学习系统从片段级别提升至音频级别，从而建立了一个新的基准，使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测，平均均方误差分别为 0.73 和 1.15。结果表明，基于 ASR 的 Wav2Vec2 模型带来了最佳结果，并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时，我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。

Mar, 2024

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR 和 ST 的结果会遵循更复杂的模式。

Apr, 2022