基于流匹配的语音生成预训练
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
Mar, 2023
通过使用大规模预训练模型,将音频深度伪造检测问题转化为说话人验证框架,利用被测声音样本和所声称身份的声音间的不匹配暴露假音频,实现了对广义能力的全面泛化。实验表明,基于预训练模型的检测器在内部数据上与监督方法不相上下,在外部数据上则大幅超越监督方法。
May, 2024
该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型,用已经预训练好的解码器初始化视频到语音合成任务的音频解码器,从而改进生成器的质量和重构的语音质量。
Jun, 2023
通过整合频谱特征到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,结合确定性离散积分方法(DDIM)来简化抽样步骤,我们的模型提高了效率和语音增强质量,同时在两个不同信噪比的公共数据集上展示出最先进的结果,超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能,还增强了实际部署能力,而不增加计算需求。
Jun, 2024
该论文通过引入统一的端到端(E2E)框架,对语音语义理解任务进行了指令微调技术的探索,该框架在语音数据上生成与任务相关提示条件下的语义标签。实验证明,我们提出的模型在微调下游任务后显著优于最先进的模型,并且在零样本和少样本情况下取得了有竞争力的性能。为了促进未来对语音到语义任务的指令微调工作,我们发布了我们的指令数据集和代码。
Sep, 2023
本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM),利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明,该模型可以显著提高韵律和内容建模,并能够生成自然、有意义和连贯的语音。
Sep, 2021
本文提出一种新颖的生成模型,它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督,我们能够强制它们具有一致和可解释的特征,这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性(例如情感和语速),即使只监督 1%(30 分钟)。在这样低的监督水平下,我们观察不到合成质量与最先进的基线水平相比的下降。
Oct, 2019
Voicebox 是实现规模可扩展的非自回归流匹配模型,通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务,且在零样本 TTS 合成方面优于 VALL-E 模型。
Jun, 2023