基于 Wav2vec2.0 的自动语音识别领域适应中继续预训练在小学数学课堂环境下的应用

May, 2024

基于 Wav2vec2.0 的自动语音识别领域适应中继续预训练在小学数学课堂环境下的应用

Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings

PDF

Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi, Jing Liu, Carol Espy-Wilson

TL;DR通过持续预训练 (CPT)，我们研究了将 Wav2vec2.0 调整到课堂领域的有效性，结果表明 CPT 是一个强大的工具，可以将基于 Wav2vec2.0 的模型的词错误率（WER）降低 10% 以上，改善了模型对不同噪声、麦克风、课堂条件以及学生群体的适应能力。同时，我们的 CPT 模型在标记微调数据中未见过的不同人群中展示了更好的泛化能力。

Abstract

Creating automatic speech recognition (ASR) systems that are robust and resilient to classroom conditions is paramount to the development of ai t

automatic speech recognition ai tools continued pretraining wav2vec2.0 classroom conditions

发现论文，激发创造

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

预训练的 Wav2Vec 2.0 在领域转移语音识别方面的表现如何？对空中交通管制通讯进行了广泛的基准测试

本研究旨在探讨在预训练和 fine-tuning 阶段数据属性存在实质性差异的情况下，在空中交通管制数据上分析 Wav2Vec 2.0 和 XLS-R 模型的鲁棒性，结果显示，通过只使用已标注数据的较小部分来对 E2E 声学模型进行 fine-tuning，相对于基于混合式 ASR 基线的声学模型，可以在几个开源且具有挑战性的 ATC 数据库中实现 20％至 40％的相对字错率降低，并分析了一种 ATC 数据集中的低资源和性别偏见的情况。

Mar, 2022

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

跨语言 monolingual wav2vec-2.0 的魔法尘

该研究提出了一种简单有效的跨语言转移学习方法，以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别（ASR），并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练（DUST）迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。

Oct, 2021

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估

本研究通过研究两个小数据集，其中一个是公开的，探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性，相对于基于 ASR 和手动转录训练的 BERT 基准系统，发现此方法有很大的提升。

Oct, 2022

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

波斯幼儿语音评估的自动语音识别

介绍了一种新的针对学前儿童语音测试的方法，通过加入 Random Frequency Pitch 目标到 Wav2Vec 2.0 模型的屏蔽目标中，在 Persian CommonVoice 数据集上达到了仅有 1.35 的字错误率，并在零次和少次测试中达到了积极的成果。

Mar, 2022