WavFT: 利用标记和未标记数据微调声学模型

Apr, 2022

WavFT: 利用标记和未标记数据微调声学模型

WavFT: Acoustic model finetuning with labelled and unlabelled data

Utkarsh Chauhan, Vikas Joshi, Rupesh R. Mehta

TL;DR本文介绍了一种使用无标签数据的有监督语音模型微调方法，达到了分类和上下文特征学习相结合的效果，并使用对比损失来学习音频表示，进而在古吉拉特语和孟加拉语上分别减少了 11.2% 和 9.19% 的错误率。

Abstract

Unsupervised and self-supervised learning methods have leveraged unlabelled data to improve the pretrained models. However, these methods need significantly large amount of unlabelled data and the computational cost of training models with such large amount of data can be prohibitively

unsupervised learning self-supervised learning finetuning acoustic model contrastive loss

发现论文，激发创造

多任务学习和自监督实现高效的音频分类

本研究旨在通过使用多任务学习和自监督学习提高基于 WaveNet 的大型神经网络在音频数据上的标签效率，并证明在有限的标记训练数据场景下，同时训练其他自监督任务可以显著提高分类性能。

Oct, 2019

多假设 RNN-T 损失函数用于神经传输器的无监督微调和自学习

本文提出了一种新的方法，利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练，其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响，并在 Librispeech，Wall Street Journal（WSJ），Aurora-4 和 CHiME-4 数据集上进行实验，显著提高了系统性能。

Jul, 2022

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016

使用百万小时的语音构建声学模型的经验教训

本报告探讨了利用未标记语音数据进行声学模型构建的方法 —— 采用学生 / 教师训练和定期交替的有标记和未标记数据学习，并在分布式训练中利用 BMUF 和梯度阈值压缩 SGD，在较小的超参数调整范围内获得了 10 至 20％的识别率提高。

Apr, 2019

基于音频对比的精细调整

使用对比学习的可转移性，引入音频对比微调（AudioConFit）作为一种高效方法，既能适应训练数据（避免过拟合），又能在新领域中实现良好的推广效果，通过实证实验在各种音频分类任务中证明了该方法的有效性和稳健性，取得了各种设置下的最新成果。

Sep, 2023

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022

AcTune: 基於預訓練語言模型的半監督主動學習中不確定性感知的主動自我訓練

提出了一种名为 AcTune 的新框架，该框架利用未标记数据来提高主动预训练语言模型的标记效率，该方法采用了区域感知采样策略和基于动量的记忆库技术，将主动预训练语言模型的标记效率提高了 56.2％。

Dec, 2021

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023

端到端自动语音识别：从受监督学习到半监督学习与现代架构

本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法，在标准数据集 LibriSpeech 上，通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明，半监督训练可以改善所有架构和损失函数的模型，并在它们之间缩小性能差距，在标准监督学习设置下，获得了端到端声学模型的最新技术水平，并且半监督训练取得了新的绝对技术水平。此外，文章研究了利用不同数量的未标记音频的效果，并提出了几种评估未标记音频特性的方法，证明使用更多的音频进行训练能够减少对外部语言模型的依赖。

Nov, 2019