本文介绍了 DeepSinger,这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统,其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持
Jul, 2020
本文提出 DiffSVC,一种基于去噪扩散概率模型的 SVC 系统,在该系统中,使用语音后验谱图(PPG)等特征进行内容建模,并辅助使用基频和响度特征来辅助去噪。实验表明,DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。
May, 2021
HiddenSinger 是一个高质量的歌唱声音合成系统,使用神经音频编解码器和潜在扩散模型,解决了模型复杂性和可控性的问题,并在无标签歌声数据集上训练,产生了高品质的歌声合成结果。
Jun, 2023
通过无分类器扩散引导的 MakeSinger 半监督训练方法,提高合成的歌声质量,并展示即使在无歌声数据的情况下,通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。
Jun, 2024
本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger,它采用了 24 kHz LPCNet 和多歌手预训练,通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。
Mar, 2022
本文提出了一种高质量的歌唱合成器,它能够在有限的可用录音基础上模拟出一种声音,采用序列到序列的歌唱模型,并设计了一个多歌手框架来利用不同歌手的现有歌唱数据,以减轻歌唱评分不平衡的问题。此外,为了使编码器输出与歌手无关,我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器(MRWDs)以使网络成为 GAN。客观和主观的评估表明,所提出的合成器比基准测试能够产生更高质量的歌唱声音(MOS 值分别为 4.12 和 3.53)。特别是高音元音的表达得到了显著改善。
Jun, 2020
本文提出 RMSSinger 方法,在基于真实音乐分数的歌唱声合成 (RMS-SVS) 领域第一次使用单词级模型,避免了繁琐的音素时长注释和复杂的音素级音符对齐,并进一步提出了第一种基于扩散过程的音高建模方法,在新的数据集上广泛实验,证明了我们方法的有效性。
May, 2023
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
基于先前的研究,在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法,提高了单个说话人的声域,同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集,并改善了合成歌声的音质和节奏自然度。
Sep, 2023
本研究提出了一种名为 HiFiSinger 的 SVS 系统,通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型,使用小波变换处理声波时频信息,采用多级对抗训练,在高采样率情况下合成高保真度的歌唱声音。
Sep, 2020