自我监督语音模型界面设计
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
Jan, 2024
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022
本研究提出融合自监督学习语音模型嵌入的集成框架,旨在探究其在音频和非语音任务中的表示能力,实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型,特别在面对细粒度音乐任务时也表现出强大的能力。
Sep, 2022
利用中间层监督自监督学习(ILS-SSL)对语音预训练模型进行优化,可以更好地集中于音频内容信息学习,从而实现识别性能的提高,并且在语言模型不被使用情况下,相对字错率下降 23.5%。
Dec, 2021
本文对自我监督学习的理论与实践中被忽视的问题进行了分析,阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响,并为自我监督学习的从业者指出了一些有价值的见解。
Feb, 2023
本文通过引入一个简单有效的前端适配器,可以使预先训练在波形上的自监督学习(SSL)模型与使用滤波器组频谱特征(Fbank)进行微调的语音识别任务兼容,实验结果表明我们提出的前端适配器对于几个流行的 SSL 模型都有效。
Feb, 2023
该研究旨在探索将非学习的谱特征 (SF) 提取器与自我学习模型相结合的有效性,结果表明,该方法显著优于自我学习模型和基线模型,在语音识别和语音翻译两种任务中都表现出更好的性能,在自我学习培训集和目标语言数据存在域不匹配情况时,自我学习模型的相对贡献非常小。
Apr, 2022
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单词错误率均有显著的改善。
Nov, 2022
本文介绍了一种应用于 ASR 任务的早期退出策略(EE),借此解决自我监督学习模型在大规模任务中存在的推理速度慢和网络反应过度的问题,并提出了两种新的策略来优化性能和速度之间的平衡。
Nov, 2022
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024