本文提出一种神经文本转语音系统,通过使用变分自动编码器并在音标级别上聚合韵律特征,实现了从一个说话者到另一个说话者的精细韵律转移,并且解决了参考信号文本缺失的问题。主要关键字为“神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳”和“序列到序列”。
Jul, 2019
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成,实验表明这种方法可以显著提高合成语音的自然度和表现力,并可以通过更改相邻的句子间接地控制语调。
Nov, 2020
本论文采用utterance级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
Jun, 2022
本文研究了基于文本声音编辑技术(Text-based voice editing,TBVE)的新方法,通过使用预训练说话人验证嵌入和联合训练参考编码器的方法,增强了语音中的说话人身份和韵律连续性。
Oct, 2022
本文介绍一种使用直观的离散标签实现音素级F0和时长控制的新方法,其使用无监督的韵律聚类过程将音素级F0和时长特征离散化为韵律标签的输入序列,该模型不需要参考语音就能合成语音,并具有高质量的语音输出和有效的韵律控制能力。
Nov, 2022
使用零样本学习和多语言语言模型,该研究提出了一种只使用目标语言文本数据进行多语言语音合成(TTS)的方法,其能够成功地为只有文本资源的低资源语言开发TTS系统,大大拓展了TTS的覆盖范围并能取得高度理解度。
Jan, 2023
该研究基于语音属性的分解和对应的感性偏见,提出了一种基于方谱的TTS系统Mega-TTS,训练了20k小时的语音数据,实现了零样本文本到语音的高质量生成。
Jun, 2023
闪电语音是一种大规模零样本语音合成系统,使用比之前的方法推理时间约占 5%,具有高音质和高相似性的性能,同时实现了语音处理的多样性。
Apr, 2024
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外/未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。