VITS2: 用对抗学习和架构设计提高单阶段文本转语音的质量和效率
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试,评估自然度和发言人相似性。我们的系统使用了 VITS2 架构,结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段,不允许使用额外数据的情况下,我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段,得分为 4.17。
Jun, 2024
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本文介绍了一种基于 VITS 的模型的无需搜索的优化框架,它可以平衡损失,并将解码器的能力提高到最大,从而实现了无需搜索找到最佳平衡点。通过该框架,在零样本语音合成和语音转换任务中取得了最优表现。
May, 2023
本研究旨在实现一种接近于人类对话的 TTS,通过基于 VAE/GMVAE-VITS 的训练,利用上下文信息来综合预测所需样式的语音合成, 实验结果表明,该方法在对话级别的自然度方面优于原本的 VITS。
Jun, 2022
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
Jun, 2020
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
最近的自然语言处理(NLP)的进展中,大型语言模型(LLMs)在多个应用方面展现出了出色的高质量文本生成能力。本研究引入了一种创新的方法 Llama-VITS,在文本的语义内容方面通过 LLM 来增强 TTS 综合效果。借助 Llama2 来进行主要语音合成过程,我们的实验表明,Llama-VITS 在 LJSpeech 数据集上与原始 VITS(ORI-VITS)和集成 BERT 的模型(BERT-VITS)的自然性相当,并且在 EmoV_DB_bea_sem 数据集上显著提高情感表达能力,突显其生成情感语音的潜力。
Apr, 2024
该研究提出了一个跨语言语音合成框架,包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法,我们的评估表明这种方法优于现有的基于多语言训练模型的方法,并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性,尤其适用于资源匮乏环境。
Sep, 2023
研究使用不同的 TTS 模型合成瑞士德语,发现 VITS 模型表现最佳,使用判别器对模型进行评估,在不同的瑞士德语方言中实现了以前无法达到的语音合成质量。
May, 2023