优质零样本语音生成模型的Takin
本文提出了一个高质量的语音合成系统AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到TTS模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的Mel声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4实现了比基线更好的语音质量和相似性,而无需进行任何微调。
Apr, 2022
本文研究了基于文本声音编辑技术(Text-based voice editing,TBVE)的新方法,通过使用预训练说话人验证嵌入和联合训练参考编码器的方法,增强了语音中的说话人身份和韵律连续性。
Oct, 2022
本文介绍了一种基于语言模型的文本到语音合成方法,使用名为Vall-E的神经编解码器语言模型,通过在预训练阶段将60K小时的英语语音数据进行规模扩大,可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音,并能够在保持发言人情感和声学环境的前提下,提高声音自然度和发言人相似度。
Jan, 2023
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域/频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的TTS系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023
该研究基于语音属性的分解和对应的感性偏见,提出了一种基于方谱的TTS系统Mega-TTS,训练了20k小时的语音数据,实现了零样本文本到语音的高质量生成。
Jun, 2023
Voicebox 是实现规模可扩展的非自回归流匹配模型,通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务,且在零样本TTS合成方面优于VALL-E模型。
Jun, 2023
Audiobox是一种基于流匹配的统一模型,通过描述和示例的提示来增强可控性,统一了语音和声音生成范式,并通过使用Bespoke Solvers提高生成速度。
Dec, 2023
自然言语3通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间,并实现了高质量、相似度、韵律和可懂性的自然语音生成。
Mar, 2024
我们提出了VoiceShop,这是一个新颖的语音到语音框架,可以在单次前向传播中修改语音的多个属性,如年龄、性别、口音和语音风格,同时保留输入说话人的音色。
Apr, 2024
本研究解决了当前语音合成中细粒度韵律控制的不足,提出了一种名为PRESENT的方法,能够在不需新的训练或样式嵌入的情况下实现韵律编辑。研究表明,该方法在零样本语言转移中表现优异,对德语、匈牙利语和西班牙的字典错误率显著改善,且实现了亚音素级别的控制,首次应用于基于快语音2的模型。
Aug, 2024