英文语音合成的统一前端框架
在本文中,我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线,它包括 Multi-scale Contrastive Text-audio Pre-training(MC-TAP)协议和并行化的 TTS 前端模型,通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解,以及执行 TN、PD 和 PBP 预测任务,实验证明了我们提出方法的卓越性能。
Apr, 2024
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
Jun, 2020
本文介绍了一种基于(加权)有限状态转化器的文本分析模型,可用于 TTS 合成,其使用词汇工具包构建转换器,适用于 8 种语言,包括西班牙语、意大利语、罗马尼亚语、法语、德语、俄语、普通话和日语。
Aug, 1996
我们提出了一个多任务学习(MTL)模型,用于共同完成文本转语音(TTS)前端中常见的三个任务:文本规范化(TN),词性标注(POS)和同音异义词消歧(HD)。我们的框架利用了树状结构,其中包含一个主干,用于学习共享表示,以及分别的任务特定头。我们进一步结合了一个预训练的语言模型,利用其内置的词汇和语境知识,并研究了如何最好地利用其嵌入以最大程度地使我们的多任务模型受益。通过任务层面的消融实验,我们证明了我们在所有三个任务上训练得到的完整模型相比于只训练于个别或子组合任务的模型具有最强的整体性能,证实了我们的多任务学习框架的优势。最后,我们引入了一个新的 HD 数据集,其中包含多种上下文中平衡的句子,用于研究各种同音异义词及其发音。我们表明,将该数据集纳入训练中相比于仅使用常用但不均衡的预先存在的数据集,显著提高了 HD 性能。
Jan, 2024
该研究提出了 Tacotron,一种端到端的生成式文本转语音模型,通过多个关键技术在序列到序列的框架下进行良好性能表现,同时模型以帧为单位直接生成语音,表现自然度和速度方面优于传统的参数化系统。
Mar, 2017
该论文提出了 UnifySpeech 模型,它首次将文字转语音(TTS)和语音转换(VC)结合到一个框架中,通过矢量量化和域限制技术,加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。
Jan, 2023
本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包,支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明,该工具包生成的语音接近于真实语音,达到了顶尖水平。
Oct, 2021
Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.
Apr, 2024