对抗训练的端到端朝鲜语歌声合成系统

Aug, 2019

对抗训练的端到端朝鲜语歌声合成系统

Adversarially Trained End-to-end Korean Singing Voice Synthesis System

Juheon Lee, Hyeong-Seok Choi, Chang-Bin Jeon, Junghyun Koo, Kyogu Lee

TL;DR本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Abstract

In this paper, we propose an end-to-end korean singing voice synthesis system from lyrics and a symbolic melody using the following three novel approaches: 1) phonetic enhancement masking, 2) local conditioning o

korean singing voice synthesis phonetic enhancement masking conditional adversarial training mel-synthesis network super-resolution network

发现论文，激发创造

对抗训练的多歌手序列到序列歌唱合成器

本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Jun, 2020

N-Singer：一种非自回归式韩语歌声合成系统，用于发音增强

本文提出一种名为 N-Singer 的韩语歌声合成系统，通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。

Jun, 2021

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

基于原始音标输入和显式韵律建模的文本转语音合成的生成对抗训练

通过生成对抗训练的端到端语音合成系统，我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder，并通过几种预训练模型来实验上下文化和去上下文化的词嵌入，同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。

Oct, 2023

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

基于 PPG 的对抗性表示学习唱声转换

该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。

Oct, 2020

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

使用对抗性声码器加速 TTS 合成

该研究提出了一种使用生成对抗网络 (GANs) 的方法，从感知上启发的频谱图到简单的幅度谱图进行映射，以达到比现有的 TTS 系统更快的速度和更好的性能。

Apr, 2019

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022