SALTTS:利用自我监督的语音表示改进语音合成
本研究探讨了自监督学习在 spontaneous TTS 和 MOS 预测中的适用性,并在实验中比较了 6 种不同的 SSL 及每种模型中的不同层次,旨在深入了解 SSL 的应用。
Jul, 2023
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而,当参考语音包含噪声时,这种方法的语音合成质量会降低。本文中,我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中,并使用带噪声的参考语音对其进行微调,同时采用了语音增强前端以进一步提高性能。通过客观和主观评估,我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性,并且与语音增强相结合有效地工作。
Jan, 2024
本研究提出融合自监督学习语音模型嵌入的集成框架,旨在探究其在音频和非语音任务中的表示能力,实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型,特别在面对细粒度音乐任务时也表现出强大的能力。
Sep, 2022
本文介绍了一种方法,可以将预先训练的自我监督(SSL)语音表示转移到多种语言中,使用适配器模块加快新语言任务的预训练,并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示,然后应用这些语言表示进行自动语音识别。
Jul, 2021
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
RobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。
Jul, 2023