利用多层次 VAE 和对抗训练进行的文本转语音口音转化

Jun, 2024

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training

Jan Melechovsky, Ambuj Mehrish, Berrak Sisman, Dorien Herremans

TL;DR提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

Abstract

With rapid globalization, the need to build inclusive and representative speech technology cannot be overstated. accent is an important aspect of speech that needs to be taken into consideration while building in

globalization inclusive speech technology accent text-to-speech multi-level variational autoencoder

发现论文，激发创造

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

可控口音的语音合成

该论文提出了一种神经网络 TTS 架构，可在推理期间控制重音和重音强度，并以三种新机制实现，即使用方案控制因子建模复杂的重音变异，量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明，并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。

Sep, 2022

TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换

本文提出了一种名为 TGAVC 的语音转换框架，通过望文生义的内容嵌入，辅助提取正文内容并应用对抗训练消除说话人身份信息，从而更有效地分离语音的内容和音色。实验结果表明，TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。

Aug, 2022

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

多说话人神经语音合成的多任务对抗训练算法

本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。

Sep, 2022

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

AdaSpeech: 自适应定制语音的文本转语音

提出了一个自适应的 TTS 系统 AdaSpeech，通过使用两个声学编码器处理不同的声学条件，并在 mel-spectrogram 解码器中引入条件层归一化技术来权衡自适应参数和语音质量，该系统在只有几分钟的训练数据的情况下，对个性化语音化的效果较好，适用于商业语音平台。

Mar, 2021