使用少量样本的神经语音克隆

Feb, 2018

Neural Voice Cloning with a Few Samples

Sercan O. Arik, Jitong Chen, Kainan Peng, Wei Ping, Yanqi Zhou

TL;DR本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Abstract

voice cloning is a highly desired feature for personalized speech interfaces. neural network based speech synthesis has been shown to gene

发现论文，激发创造

本论文采用 utterance 级别的规范化和发音人嵌入，在提取精细的韵律特征的同时，成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验，结果表明可以在不降低质量的条件下，成功实现语音的克隆。

Jun, 2022

这篇文章提出使用多模态学习来改进少样本语音克隆性能，并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统，实验结果表明，该多模态学习方法可以极大地提高语音克隆性能。

Mar, 2022

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

本研究描述了三种方法来区分真实和合成语音，并比较它们的特点和准确性，具有对抗性清洗的鲁棒性，在单个讲话者的声音和多个声音上进行了训练。

Jul, 2023

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

OpenVoice 是一种全能的语音克隆方法，仅需参考说话者的短音频剪辑即可复制其声音，并在多种语言中生成语音。

Dec, 2023

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

我们提出了一种基于学习的文本转语音系统，通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者，实现了语音合成系统的极大性能提升，且适用于新的声音，即使从非常短的样本中拟合。

Feb, 2018