自我监督表示在自动语音识别中的高效注入
该论文提出LeBenchmark,这是一个可重复的框架,用于评估自监督学习从语音到ASR、语言理解、语音翻译和情感识别的影响,重点关注法语中的语音技术,通过实验表明,SSL对大多数语音任务都是有益的,但不是所有任务都是。
Apr, 2021
本文研究使用适配器将预训练的wav2vec 2.0模型进行微调,以减少自动语音识别任务对参数的需求,提高模型的可扩展性和效率。应用适配器后,每个任务的参数少于10%,性能降低很少。结果表明,通过仅向预训练网络的前几层添加适配器,就可以实现与完全迁移相似的性能,进一步优化了效率。
Feb, 2022
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进SSL-based预训练模型的泛化性能提供指导。
Mar, 2022
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022
本文提出了一种新的自监督学习范式,利用解码器的威力提高语音识别下游任务的性能。HuBERT框架用于计算编码器的传统掩蔽预测损失,同时在框架中引入了解码器和目标准备策略。最终,我们使用一个多任务SSL设置,其同时优化编码器和解码器损失,实现了ASR表现的25%相对改进。
Jun, 2022
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型HuBERT、Wav2vec2.0和WaveLM进行了实验,得到了较好的效果。
Jun, 2022
本研究提出融合自监督学习语音模型嵌入的集成框架,旨在探究其在音频和非语音任务中的表示能力,实验证明该框架普遍优于当前最先进的自监督学习语音/音频模型,特别在面对细粒度音乐任务时也表现出强大的能力。
Sep, 2022
本文研究了自我监督学习在语音任务中的应用,特别是其在下游任务中的性能表现和解码器架构的影响。结果发现,使用不同的解码器架构可能会导致表现结果的显著变化,使用局限的解码器也可能会适得其反地增加SSL模型的大小。
Jun, 2023
通过使用自我监督学习(SSHR)的分层表示,我们提出了一种新方法来优化多语种自动语音识别(ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的Cross-CTC在最后几层中引导模型获取更多与内容相关的信息。通过在Common Voice和ML-SUPERB这两个多语种数据集上的评估,实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。
Sep, 2023
自我监督学习在发音验证中表现出与有监督系统相近的性能,本研究通过对预训练的WavLM进行自我监督有监督微调并使用伪标签,实现了语音表示学习中的有监督性能,取得了0.99%的EER,接近有监督基线0.94%的EER。
Jun, 2024