语调转移模型是否能转移语调?
本文提出了一个通过学习潜在的韵律嵌入空间,从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法,利用学习到的韵律嵌入空间来进行条件控制,达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果,并定义了多种定量和主观指标来评估韵律转移,展示了在不同模型上韵律转移任务的结果和相应的音频样本。
Mar, 2018
通过使用人工调整显著的韵律相关因素,使得生成语音更适合目标文本,同时保持整体参考音调效果,可以提高跨文本韵律转换模型的感知自然度约 57.8%,分析结果显示,有限的用户努力就足够实现这些改进,并且潜在的参考空间接近性不是可靠的跨文本韵律相似度度量。
Jun, 2024
本文提出一种神经文本转语音系统,通过使用变分自动编码器并在音标级别上聚合韵律特征,实现了从一个说话者到另一个说话者的精细韵律转移,并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。
Jul, 2019
语音到语音翻译系统需要克服适用于对话用途时可能会丧失言者意图和立场微妙细节的问题,通过开发一个数据收集协议并研究跨语言韵律差异,我们提出了一种简单的韵律差异度量方法,并基于此对三个基本模型的实用性进行了评估,结果可指导未来跨语言韵律以及有效韵律传递的语音到语音翻译系统的设计。
Jul, 2023
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
对语音合成系统中的韵律传输领域进行研究,评估了适应多语言环境的预训练单语言文本转语音模型的学习方法,即监督微调和迁移学习。结果表明,与监督微调相比,迁移学习可以显著提高性能,平均 MOS 得分高出 1.53 点,RA 增加 37.5%,MCD 改善了约 7.8 个点。这些发现对于建立低资源语言的文本转语音模型具有重要意义。
May, 2024
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
Jun, 2022
分析了不同韵律建模设置下的非自回归 TTS 模型行为,并提出了一种层次结构,其中基于单词级韵律特征来预测音素级韵律特征的方法,该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。
Nov, 2020
该研究提出了一种基于 Tacotron 的文本到语音系统的新训练策略,通过使用感知损失函数实现了在样式重建损失下的语音风格的习得,最终在自然度和表现力上都实现了非凡的性能,该模型是首次将感知质量作为损失函数并纳入 Tacotron 训练,从而实现更好的表现力。
Aug, 2020