本文针对少量音频样本的情况,提出了一种基于神经网络的语音克隆系统,通过训练来进行说话人的自适应和编码,实现语音的自然性和相似度,适用于低资源系统的使用。
Feb, 2018
本文提出一种神经文本转语音系统,通过使用变分自动编码器并在音标级别上聚合韵律特征,实现了从一个说话者到另一个说话者的精细韵律转移,并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。
Jul, 2019
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
Jan, 2022
OpenVoice 是一种全能的语音克隆方法,仅需参考说话者的短音频剪辑即可复制其声音,并在多种语言中生成语音。
Dec, 2023
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
本文提出了一个高质量的语音合成系统 AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4 实现了比基线更好的语音质量和相似性,而无需进行任何微调。
Apr, 2022
该研究使用多语言方法进行零样本多说者语音合成,可在低资源语种上实现零样本语音转换,使用 VITS 模型,经过多项创新修改后,在 VCTK 数据集上实现了最先进的结果,并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。
Dec, 2021
本研究提出了一种方法,对诗歌进行语音合成,从而使文学学者可以系统地研究文本、口语实现和听众对诗歌的感知之间的相互影响,并发现该方法在客观评估和人类研究中取得了成功。
Jul, 2022
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。
Apr, 2024