基于短暂无转录样本的新说话人匹配

Feb, 2018

基于短暂无转录样本的新说话人匹配

Fitting New Speakers Based on a Short Untranscribed Sample

Eliya Nachmani, Adam Polyak, Yaniv Taigman, Lior Wolf

TL;DR我们提出了一种基于学习的文本转语音系统，通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者，实现了语音合成系统的极大性能提升，且适用于新的声音，即使从非常短的样本中拟合。

Abstract

learning-based text to speech systems have the potential to generalize from one speaker to the next and thus require a relatively short sample of any new voice. However, this promise is currently largely unrealized. We present a method that is designed to capture a new speaker from a s

learning-based text to speech generalization speech synthesis embedding space new speakers

发现论文，激发创造

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

Meta-TTS: 面向 Few-Shot 说话人自适应的元学习文本转语音

本文提出了一种使用元学习算法的多说话人文本转语音（Meta-TTS）模型，通过少量的适应步骤，可以生成具有高语音相似度的语音合成，并且比已有的说话人适应方法和说话人编码方法更为高效。

Nov, 2021

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

使用少量样本的神经语音克隆

本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Feb, 2018