关于使用自监督语音表示在自发语音合成中的研究
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
通过结合 Self-Supervised Learning 的表示形式,使用 encoder 层次重建其表示结果并应用于数据增强技术,提高 FastSpeech2 的语音合成质量。
Aug, 2023
本研究提出融合自监督学习语音模型嵌入的集成框架,旨在探究其在音频和非语音任务中的表示能力,实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型,特别在面对细粒度音乐任务时也表现出强大的能力。
Sep, 2022
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
Jan, 2024
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而,当参考语音包含噪声时,这种方法的语音合成质量会降低。本文中,我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中,并使用带噪声的参考语音对其进行微调,同时采用了语音增强前端以进一步提高性能。通过客观和主观评估,我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性,并且与语音增强相结合有效地工作。
Jan, 2024
通过使用自我监督学习 (SSHR) 的分层表示,我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次,发现了与语言和内容相关的信息,从相关的中间层中提取与语言相关的帧,并通过自注意机制引导针对特定内容的提取。此外,我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和 ML-SUPERB 这两个多语种数据集上的评估,实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。
Sep, 2023
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单词错误率均有显著的改善。
Nov, 2022
本研究比较了自监督学习特征和谱特征的性能,并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库,发现 wav2vec 特征具有最佳的泛化能力,且结合特征组合表现最佳。
Jun, 2022