使用动态卷积注意力的零样本长篇语音克隆

Jan, 2022

使用动态卷积注意力的零样本长篇语音克隆

Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention

Artem Gorodetskii, Ivan Ozhiganov

TL;DR本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Abstract

With recent advancements in voice cloning, the performance of speech synthesis for a target speaker has been rendered similar to the human level. However, autoregressive voice cloning systems still suffer from te

voice cloning speech synthesis attention mechanism zero-shot speaker adaptation long utterances

发现论文，激发创造

Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音

提出了一种名为 Attentron 的 few-shot TTS 模型，通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。

May, 2020

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

使用少量样本的神经语音克隆

本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Feb, 2018

零样本多说话人文本语音中的准确声调复制

本论文采用 utterance 级别的规范化和发音人嵌入，在提取精细的韵律特征的同时，成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验，结果表明可以在不降低质量的条件下，成功实现语音的克隆。

Jun, 2022

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

基于定位关系的注意力机制，用于强健的长篇语音合成

本研究提出一种简单的位置相对注意力机制，可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题，并比较了 GMM-based 和加性能量 based 等两种注意力机制，最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。

Oct, 2019

多模态学习改进少样本语音克隆

这篇文章提出使用多模态学习来改进少样本语音克隆性能，并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统，实验结果表明，该多模态学习方法可以极大地提高语音克隆性能。

Mar, 2022

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

CoVoMix: 推进零样本语音生成以实现人类般的多方对话

零样本文本朗读 (TTS) 建模的最新进展在生成高保真和多样化的语音方面取得了重大进展。然而，在实现人类自然性的语音中实现对话生成仍然是该领域的一个挑战。在这篇论文中，我们介绍了一种名为 CoVoMix 的新型模型，用于零样本、人类化、多发言人、多轮对话语音生成。CoVoMix 首先将对话文本转换为多个离散令牌流，每个令牌流代表单个发言人的语义信息。然后，将这些令牌流输入基于流匹配的声学模型，以生成混合的 mel 频谱图。最后，使用 HiFi-GAN 模型生成语音波形。此外，我们设计了一套全面的度量标准来衡量对话建模和生成的效果。我们的实验结果表明，CoVoMix 能够生成自然性和连贯性非常类似于人类的对话，还包括多个发言人参与多轮对话。这些在单个通道内生成的对话以流畅的语音过渡为特点，包括重叠的语音和适当的语言行为，如笑声。音频样本可在此 https URL 查看。

Apr, 2024

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015