优质零样本语音生成模型的Takin

Sep, 2024

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

EverestAI, :, Sijin Chen, Yuan Feng, Laipeng He...

TL;DR本研究针对零样本个性化语音生成的需求，提出了Takin AudioLLM系列技术和模型，尤其适用于有声书制作。通过创新的模型，如Takin TTS、Takin VC和Takin Morphing，研究展示了高质量语音生成的能力，具有可定制性和接近真实人声的特点，推动了语音生成技术的发展。

Abstract

With the advent of the big data and large language model era, Zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifi

发现论文，激发创造

AdaSpeech 4: 零-shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到TTS模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的Mel声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

利用声学上下文调节、话语嵌入和参考编码器实现零样本基于文本的语音编辑

本文研究了基于文本声音编辑技术（Text-based voice editing，TBVE）的新方法，通过使用预训练说话人验证嵌入和联合训练参考编码器的方法，增强了语音中的说话人身份和韵律连续性。

Oct, 2022

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为Vall-E的神经编解码器语言模型，通过在预训练阶段将60K小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

NaturalSpeech 2: 潜在扩散模型是自然且零-shot的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域/频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的TTS系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的TTS系统Mega-TTS，训练了20k小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

Voicebox: 多语言通用语音生成的文本引导技术大规模应用

Voicebox 是实现规模可扩展的非自回归流匹配模型，通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务，且在零样本TTS合成方面优于VALL-E模型。

Jun, 2023

Audiobox: 统一音频生成的自然语言触发器

Audiobox是一种基于流匹配的统一模型，通过描述和示例的提示来增强可控性，统一了语音和声音生成范式，并通过使用Bespoke Solvers提高生成速度。

Dec, 2023

NaturalSpeech 3：基于分解编解码和扩散模型的零样本语音合成

自然言语3通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间，并实现了高质量、相似度、韵律和可懂性的自然语音生成。

Mar, 2024

VoiceShop：一个保持身份的统一语音到语音框架，专为零样本语音编辑设计

我们提出了VoiceShop，这是一个新颖的语音到语音框架，可以在单次前向传播中修改语音的多个属性，如年龄、性别、口音和语音风格，同时保留输入说话人的音色。

Apr, 2024

呈现：零样本文本到韵律的控制

本研究解决了当前语音合成中细粒度韵律控制的不足，提出了一种名为PRESENT的方法，能够在不需新的训练或样式嵌入的情况下实现韵律编辑。研究表明，该方法在零样本语言转移中表现优异，对德语、匈牙利语和西班牙的字典错误率显著改善，且实现了亚音素级别的控制，首次应用于基于快语音2的模型。

Aug, 2024