歌声转换的潜在回归损失比较分析
该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型,实现了稳定的歌唱声音转换,并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果,并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。
Oct, 2020
在这篇论文中,我们提出了一种自监督的 SPA-SVC 方法,该方法可以改善 SVC 任务中的声音质量,无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数(SSIM)损失,有效提升了 SVC 模型的性能,实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。
Jun, 2024
我们提出了一个框架,通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强,训练歌手身份编码器以提取适用于各种歌唱相关任务(如歌声相似性和合成)的表示,我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务,并重点关注领域外泛化,我们的框架在 44.1 kHz 下产生高质量的嵌入,优于说话人验证和 wav2vec 2.0 预训练基线,在歌唱声音上,并发布了我们的代码和训练模型,以促进对歌唱声音和相关领域的进一步研究。
Jan, 2024
该论文提出了一种基于深度学习的歌唱声音转换方法,该方法不需要以文本或音符为条件,并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进,每个歌手都表示为一个嵌入式向量,以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议,该方法在较小的数据集上取得了良好的效果。
Apr, 2019
研究声音转换的科学竞赛活动的最新版本,聚焦于歌声转换挑战,涉及新数据库、领域内和领域间任务,通过大型听力测试发现,除了顶级系统的自然度可达到人类水平,但没有团队能够获得与目标演讲者的相似度一样高的分数,并探讨了现有的客观测量是否能够预测感知表现,发现只有很少一部分能达到显著相关性。
Jun, 2023
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
本论文提出了一种基于 VAW-GAN 的歌声转换框架,通过训练一个编码器来解开歌手身份和演唱语调(F0 曲线),通过对歌手身份和 F0 进行条件生成,解码器能够生成具有未见目标歌手身份的输出谱特征,并提高了 F0 渲染的性能。
Aug, 2020
我们提出了 SelfVC,一种训练策略,通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练,并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上,SelfVC 在零样本语音转换方面取得了最先进的结果。
Oct, 2023
本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger,它采用了 24 kHz LPCNet 和多歌手预训练,通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。
Mar, 2022
本文提出 DiffSVC,一种基于去噪扩散概率模型的 SVC 系统,在该系统中,使用语音后验谱图(PPG)等特征进行内容建模,并辅助使用基频和响度特征来辅助去噪。实验表明,DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。
May, 2021