Nix-TTS: 模块化蒸馏轻量级端到端文本转语音
本论文提出了一种噪声鲁棒的表现性文本转语音模型(NoreSpeech),它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中,这是通过一个新颖的 DiffStyle 模块,一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明,NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。
Nov, 2022
本文提出了一种名为 LightSpeech 的 TTS 模型,该模型通过利用神经架构搜索自动设计出轻量级的、高效的模型,并在不损失语音质量的情况下,将模型压缩率提高了 15 倍、推断速度提高了 6.5 倍。
Feb, 2021
利用大规模扩散模型做无领域特定建模的语音合成,通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题,在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练,实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程,而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。
Jun, 2024
本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题,并使用知识蒸馏使学生模型学习教师模型的输出概率,取得了在中英文系统中对于域外测试数据语音质量的稳定提升。
Nov, 2019
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍,并且质量良好。
Apr, 2021
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型,该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成,实验结果表明,该模型在自然度方面表现优异,可与 VQ-VAE 模型的重构相媲美。
May, 2020
基于大规模模型的零样本文本转语音(TTS)方法的进步展示了高保真度的说话者特征重现,但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器(MoA)的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TTS 模型的解码器和方差适配器中,通过根据说话者嵌入选择与说话者特征相关的适配器,以零样本方式增强了适应各种说话者的能力。我们的方法以最小的附加参数实现了高质量的语音合成。通过客观和主观评估,我们确认我们的方法在比基准少 40% 的参数下以 1.9 倍的推理速度实现了更好的性能。可以在我们的演示页面(此 https 网址)上找到音频样本。
Jul, 2024
本文介绍了一种基于模仿学习的方法来纠正自动转录的音频输入和自动翻译的文本输出中存在的错误,通过使用这种方法,可以在英语 - 德语 CoVoST-2 和 MuST-C 数据集上优化大约 4 个 BLEU 点的 AST 结果。
Jul, 2023