基于说话人条件的 WaveRNN: 通向未知说话人和录音条件的通用神经编码器

Aug, 2020

基于说话人条件的 WaveRNN: 通向未知说话人和录音条件的通用神经编码器

Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen Speaker and Recording Conditions

Dipjyoti Paul, Yannis Pantazis, Yannis Stylianou

TL;DR本研究提出了一种基于演讲者条件 WaveRNN（SC-WaveRNN）的语音合成方法，通过使用说话人嵌入信息，能够实现更好的泛化和更高的合成质量，并在多说话人 TTS 合成中实现了类似于零样本适应的性能提升。

Abstract

Recent advancements in deep learning led to human-level performance in single-speaker speech synthesis. However, there are still limitations in terms of speech quality when generalizing those systems into multiple-speaker models especially for unseen speakers and unseen recording quali

speech synthesis wavernn speaker embeddings multi-speaker text-to-speech

发现论文，激发创造

实现鲁棒通用神经语音编码

本文探讨了神经声码器的潜在普适性，通过训练 74 个具有 17 种语言的说话者的 WaveRNN-based 声码器，无论是在训练中观察到的还是从实验室质量的录音条件下的域外场景，都能够生成质量始终良好（相对平均 MUSHRA 为 98%）的语音，即使在质量发生显着变化时，或者朝着非语音发音或歌唱的方向移动时，该声码器仍然显着优于说话者相关的声码器，但是平均相对 MUSHRA 低至 75％，并且这些结果在不同语言间具有一致性。

Nov, 2018

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

使用最先进的神经说话人嵌入进行零样本多说话人文本转语音

研究了使用多说话人建模中的神经发音人嵌入对零样本适应的影响，发现使用可学习字典编码的说话人嵌入，能够在说话人验证任务中提高等误差率，在未知说话人使用时提高零样本适应性，并提高端到端语音合成的说话人相似性和自然度。

Oct, 2019

快速连接主义说话人适应

该研究介绍了一种名为 SVCnet 的系统，使用专门针对每种语音声音的编码神经网络生成小维度的声学变异模型，并进一步将这些模型组合成总体的声音变异模型。该系统可以用于适应识别新说话人的功能，其中将 SVCnet 与 MS-TDNN 识别器相结合的系统也被详细介绍。

Nov, 2022

高效神经音频合成

本文针对顺序模型中高效采样的问题，提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术，可以在保持高输出质量的同时提高采样速度。

Feb, 2018

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020