使用生成对抗网络进行声音模仿

Feb, 2018

Voice Impersonation using Generative Adversarial Networks

Yang Gao, Rita Singh, Bhiksha Raj

TL;DR本文提出了基于神经网络的新型语音质量和风格模拟框架，用于合成模仿的声音，并通过生成对抗网络模型构建了快速准确的语音模拟框架，实现了模拟不同性别的声音等功能。

Abstract

voice impersonation is not the same as voice transformation, although the latter is an essential element of it. In voice impersonation, the resultant voice must convincingly convey the impression of having been n

voice impersonation neural network speech quality mimicry style mimicry generative adversarial network

发现论文，激发创造

使用生成对抗网络实现语音匿名化，以保护说话人隐私

本研究利用生成对抗网络与 Wasserstein 距离的 Speaker embeddings 生成方法，将其整合到语音转文字转语音的流程中，成功实现保护隐私的同时保持较高的效能表现。

Oct, 2022

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

用生成对抗网络对失语症患者的非配对语音进行转换

本研究提出了一种新的音频转换方法，是一种 GAN-based 无监督的语音转换模型，用于改善协助医疗手术的病人的语音理解性，该方法可以将受损的语音转换为正常的语音而保留语言内容和说话人特征。

Oct, 2018

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

Wav2Pix: 使用生成式对抗网络进行语音条件下的人脸生成

本文中，我们探索了使用原始语音信号通过条件生成对抗网络（GAN）生成说话人的面部图像的潜力。我们使用自监督方法构建模型，同时利用自然对齐的音频和视觉信号，训练出一种从头开始生成面部图像的深度神经网络，没有任何额外的身份信息。我们使用一个新数据集对模型进行了训练，其中包含了高质量视频的演说家表达了非常出色的言语和视觉信号。

Mar, 2019

使用对抗性声码器加速 TTS 合成

该研究提出了一种使用生成对抗网络 (GANs) 的方法，从感知上启发的频谱图到简单的幅度谱图进行映射，以达到比现有的 TTS 系统更快的速度和更好的性能。

Apr, 2019

基于条件生成对抗网络的语音驱动人脸再现

利用递归神经网络和条件生成对抗网络，根据音频输入生成具有准确口型同步的逼真面部图像。

Mar, 2018