对抗训练的多歌手序列到序列歌唱合成器

Jun, 2020

对抗训练的多歌手序列到序列歌唱合成器

Adversarially Trained Multi-Singer Sequence-To-Sequence Singing Synthesizer

Jie Wu, Jian Luan

TL;DR本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Abstract

This paper presents a high quality singing synthesizer that is able to model a voice with limited available recordings. Based on the sequence-to-sequence singing model, we design a multi-singer framework to lever

singing synthesizer sequence-to-sequence model multi-singer framework adversarial task mrwds

发现论文，激发创造

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Mar, 2019

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

SING：符号到乐器神经生成器

本研究提出了一种基于深度学习的轻量级神经音频合成器 SING，其可以通过单一解码器从近 1000 种乐器中生成音符，并且通过新的损失函数将生成的和目标波形的对数谱距离最小化，提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比，在训练和推理方面分别快 32 倍和快 2500 倍。

Oct, 2018

使用前馈 Transformer 进行序列到序列歌唱合成

提出了一种基于 Transformer 模型的序列到序列歌曲合成器，使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音，相比于基于老师强制训练的自回归模型，具有更快的推理速度和更好的生成效果。

Oct, 2019

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

N-Singer：一种非自回归式韩语歌声合成系统，用于发音增强

本文提出一种名为 N-Singer 的韩语歌声合成系统，通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。

Jun, 2021

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021