使用动态卷积注意力的零样本长篇语音克隆
提出了一种名为 Attentron 的 few-shot TTS 模型,通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。
May, 2020
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。
Jun, 2024
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
Jun, 2022
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
本研究提出一种简单的位置相对注意力机制,可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题,并比较了 GMM-based 和加性能量 based 等两种注意力机制,最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。
Oct, 2019
这篇文章提出使用多模态学习来改进少样本语音克隆性能,并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统,实验结果表明,该多模态学习方法可以极大地提高语音克隆性能。
Mar, 2022
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
零样本文本朗读 (TTS) 建模的最新进展在生成高保真和多样化的语音方面取得了重大进展。然而,在实现人类自然性的语音中实现对话生成仍然是该领域的一个挑战。在这篇论文中,我们介绍了一种名为 CoVoMix 的新型模型,用于零样本、人类化、多发言人、多轮对话语音生成。CoVoMix 首先将对话文本转换为多个离散令牌流,每个令牌流代表单个发言人的语义信息。然后,将这些令牌流输入基于流匹配的声学模型,以生成混合的 mel 频谱图。最后,使用 HiFi-GAN 模型生成语音波形。此外,我们设计了一套全面的度量标准来衡量对话建模和生成的效果。我们的实验结果表明,CoVoMix 能够生成自然性和连贯性非常类似于人类的对话,还包括多个发言人参与多轮对话。这些在单个通道内生成的对话以流畅的语音过渡为特点,包括重叠的语音和适当的语言行为,如笑声。音频样本可在此 https URL 查看。
Apr, 2024