预先训练文本到语音模型的潜在空间改变研究,以提高表现力
在语音合成领域中,噪声扩散模型(Denoising Diffusion Models,DDMs)的整合应用日益增多。尽管其音频质量出色,但其语义能力的程度未知,并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发,我们探索了冻结 TTS 模型的潜在空间,该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息,并提出了一些新方法来在其中找到语义方向,包括有监督和无监督的方法。然后,我们演示了如何利用这些方法进行即插即用的音频编辑,无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据,并提供了补充样本:[链接]。
Feb, 2024
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023
本论文提出了一种新方法,利用文本 - 图像生成中训练的潜在扩散模型,生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌,这可以被视为音频和文本表示之间的自适应层。结果表明,相较于基准方法,该方法在客观和主观度量方面表现优异。
May, 2023
该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2,通过使用预训练的大型语言模型,设计了一些技术来提高语义一致性和时间一致性,并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明,该方法在客观指标和主观指标上均优于基线模型,并在时间信息理解、语义一致性和音质方面取得了显著进展。
May, 2023
本文研究了如何通过微调预训练的基于深度学习的文字转语音模型来使用其他说话者的少量数据合成语音,并探讨了通过微调中性 TTS 模型以使用少量情感数据来适应模型以生成情感 TTS 的可能性。
Jan, 2019
我们提出了一种新的模型,通过包含额外条件(时间戳、语调曲线和能量曲线)作为文本的补充,增强了现有预训练文本转音频模型的可控性,实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络,在保持预训练文本转音频模型权重不变的同时,将额外条件编码和融合。由于缺乏合适的数据集和评估指标,我们将现有数据集整合成一个包含音频和相应条件的新数据集,并使用一系列评估指标来评估可控性能。实验结果表明,我们的模型成功实现了细粒度控制,实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。
Aug, 2023