StyleMelGAN：一种高效高保真的对抗性合成声码器，具有时态自适应归一化

Nov, 2020

StyleMelGAN：一种高效高保真的对抗性合成声码器，具有时态自适应归一化

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

Ahmed Mustafa, Nicola Pia, Guillaume Fuchs

TL;DR提出 StyleMelGAN 算法，实现高保真度语音合成，并解决了低计算复杂度的问题。

Abstract

In recent years, neural vocoders have surpassed classical speech generation approaches in naturalness and perceptual quality of the synthesized speech. Computationally heavy models like WaveNet and WaveGlow achie

neural vocoders speech generation high-fidelity speech stylemelgan computational complexity

发现论文，激发创造

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

Multi-SpectroGAN：基于对抗式风格组合的高多样性高保真谱图生成技术，用于语音合成

这篇论文提出了一种基于生成对抗网络的多扬声器模型，可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成，同时可以控制和混合多种口音和语气。

Dec, 2020

MelGAN-VC: 基于频谱的任意长度样本的语音转换和音频风格转换

MelGAN-VC 使用 GAN 架构、siamese 网络等对非平行语音数据进行语音转换，不仅能精确地将源语音转换为目标语音，还能保留语音信息和灵活地建模目标说话者的风格，同时还能用于音乐风格转换等音频处理应用。

Oct, 2019

Multi-band MelGAN：高品质文本转语音的快速波形生成

本研究提出了一种快速的多波段 MelGAN 模型，通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明，该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。

May, 2020

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

cMelGAN：基于 Mel 频谱的高效条件生成模型

研究了使用机器学习分析音乐的难点，提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN，并与基于音符的生成模型进行对比实验。

May, 2022

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

MobileStyleGAN: 一种用于高保真图像合成的轻量级卷积神经网络

本篇论文的研究目的是探讨如何在边缘设备上使用风格生成网络，并引入 MobileStyleGAN 结构，其参数量和计算复杂度分别为 StyleGAN2 的 1/3.5 和 1/9.5，同时提供可比较的生成质量。

Apr, 2021