本研究提出了一种名为 VocGAN 的高保真实时神经声码器,其在几乎与 MelGAN 相同的速度下,显著提高了输出波形的质量和一致性,利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性,同时应用联合条件和无条件目标,在多个评估指标中显示出显著的改进
Jul, 2020
我们提出了 Universal MelGAN,它是一种合成高保真语音的声码器,可以在多个领域中使用,并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题,最终生成高度逼真的语音信号。
Nov, 2020
该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧,并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。
Oct, 2019
这篇论文提出了一种基于生成对抗网络的多扬声器模型,可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成,同时可以控制和混合多种口音和语气。
Dec, 2020
MelGAN-VC 使用 GAN 架构、siamese 网络等对非平行语音数据进行语音转换,不仅能精确地将源语音转换为目标语音,还能保留语音信息和灵活地建模目标说话者的风格,同时还能用于音乐风格转换等音频处理应用。
本研究提出了一种快速的多波段 MelGAN 模型,通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明,该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。
May, 2020
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质效果,而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。
Oct, 2021
研究了使用机器学习分析音乐的难点,提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN,并与基于音符的生成模型进行对比实验。
May, 2022
使用基于扩散生成对抗网络的方法(Prosodic Diff-TTS),通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化,将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型,如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证,以衡量生成的准确性和 MOS 值。
Oct, 2023
本篇论文的研究目的是探讨如何在边缘设备上使用风格生成网络,并引入 MobileStyleGAN 结构,其参数量和计算复杂度分别为 StyleGAN2 的 1/3.5 和 1/9.5,同时提供可比较的生成质量。
Apr, 2021