XiaoiceSing: 高质量集成歌声合成系统
本文介绍了 ByteSing—— 一种基于 Tacotron 的音频模型和 WaveRNN 神经合成声音模块实现的中文歌声合成系统,实验证明其可生成高保真,自然且富有表现力的歌曲。
Apr, 2020
本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger,它采用了 24 kHz LPCNet 和多歌手预训练,通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。
Mar, 2022
本文提出了一种高质量的歌唱合成器,它能够在有限的可用录音基础上模拟出一种声音,采用序列到序列的歌唱模型,并设计了一个多歌手框架来利用不同歌手的现有歌唱数据,以减轻歌唱评分不平衡的问题。此外,为了使编码器输出与歌手无关,我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器(MRWDs)以使网络成为 GAN。客观和主观的评估表明,所提出的合成器比基准测试能够产生更高质量的歌唱声音(MOS 值分别为 4.12 和 3.53)。特别是高音元音的表达得到了显著改善。
Jun, 2020
本文介绍了一种歌声转换算法,可以使用目标讲话者的正常语音数据生成高质量的目标讲话者歌声,并大大提高了歌声转换系统的鲁棒性和转换效率。
Aug, 2020
本研究提出了一种名为 HiFiSinger 的 SVS 系统,通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型,使用小波变换处理声波时频信息,采用多级对抗训练,在高采样率情况下合成高保真度的歌唱声音。
Sep, 2020
本文介绍了 DeepSinger,这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统,其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持
Jul, 2020
本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统,包括三种新颖方法:1)语音增强掩蔽,2)文本和音高的本地条件对超分辨率网络,3)条件对抗训练。该系统包括两个主要模块:从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中,应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽,这使得歌唱声音的语音控制更加准确。此外,本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后,通过定量和定性评估,证实了所有提出方法的有效性。
Aug, 2019
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质效果,而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。
Oct, 2021
本文提出了一种基于卷积神经网络的歌声合成方法,通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型,生成长时序的声学特征序列以去除参数生成算法,主观听感测试结果表明该方法能够产生自然流畅的歌声。
Apr, 2019
设计了一个双语 SVS 系统用于英语和汉语普通话的人声合成,并通过使用 CMU 词典与映射规则实现中文和英语歌声之间的共享表示,融合了单语歌唱数据集和已建立的歌声转换技术来生成双语歌声,并探索了双语语音数据的潜在用途。通过实验证实,我们的语言独立表示和相关数据集的融合使得单一模型在英语和 code-switch SVS 中获得了强化的性能,同时保持了中文歌曲的表现。
Sep, 2023