VITS2: 用对抗学习和架构设计提高单阶段文本转语音的质量和效率

Jul, 2023

VITS2: 用对抗学习和架构设计提高单阶段文本转语音的质量和效率

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

PDF

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong...

TL;DR通过改进结构和训练机制，提出的 VITS2 单阶段文本转语音模型在自然度、多说话人模型的语音特征相似性以及训练和推断的效率方面取得了显著改进，并且成功减少了对音素转换的强依赖，实现了完全的端到端单阶段方法。

Abstract

Single-stage text-to-speech models have been actively studied recently, and their results have outperformed two-stage pipeline systems. Although the previous single-stage model has made great progress, there is room for improvement in terms of its intermittent unnaturalness, computational efficiency, and strong dependence on →

single-stage text-to-speech model vits2 naturalness phoneme conversion end-to-end single-stage approach

发现论文，激发创造

一种基于 VITS2 的多说话人多语言语音克隆系统，用于 limmits2024 挑战

本文介绍了一个语音合成系统的开发，用于 LIMMITS'24 挑战赛，主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统，涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练，并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试，评估自然度和发言人相似性。我们的系统使用了 VITS2 架构，结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段，不允许使用额外数据的情况下，我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段，得分为 4.17。

Jun, 2024

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

无端到端语音合成中无需超参数搜索的损失折衷自动调整

本文介绍了一种基于 VITS 的模型的无需搜索的优化框架，它可以平衡损失，并将解码器的能力提高到最大，从而实现了无需搜索找到最佳平衡点。通过该框架，在零样本语音合成和语音转换任务中取得了最优表现。

May, 2023

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

Llama-VITS: 基于语义意识的 TTS 合成增强

最近的自然语言处理（NLP）的进展中，大型语言模型（LLMs）在多个应用方面展现出了出色的高质量文本生成能力。本研究引入了一种创新的方法 Llama-VITS，在文本的语义内容方面通过 LLM 来增强 TTS 综合效果。借助 Llama2 来进行主要语音合成过程，我们的实验表明，Llama-VITS 在 LJSpeech 数据集上与原始 VITS（ORI-VITS）和集成 BERT 的模型（BERT-VITS）的自然性相当，并且在 EmoV_DB_bea_sem 数据集上显著提高情感表达能力，突显其生成情感语音的潜力。

Apr, 2024

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

瑞士德语文本转语音流程 -- 一项比较

研究使用不同的 TTS 模型合成瑞士德语，发现 VITS 模型表现最佳，使用判别器对模型进行评估，在不同的瑞士德语方言中实现了以前无法达到的语音合成质量。

May, 2023