DiffSVC：一种用于歌声转换的扩散概率模型

May, 2021

DiffSVC：一种用于歌声转换的扩散概率模型

DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion

Songxiang Liu, Yuewen Cao, Dan Su, Helen Meng

TL;DR本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。

Abstract

singing voice conversion (SVC) is one promising technique which can enrich the way of human-computer interaction by endowing a computer the ability to produce high-fidelity and expressive singing voice. In this paper, we propose DiffSVC, an SVC system based on →

singing voice conversion denoising diffusion probabilistic model phonetic posteriorgrams fundamental frequency features loudness features

发现论文，激发创造

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021

基于 PPG 的对抗性表示学习唱声转换

该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。

Oct, 2020

基于一致性模型的歌声转换

CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法，该方法旨在实现高质量生成和高速采样，尽管其推断速度明显快于最先进的扩散原理系统，并且在主观和客观指标上实现相当或更好的转换性能。

Jan, 2024

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

2023 年唱声转换挑战赛

研究声音转换的科学竞赛活动的最新版本，聚焦于歌声转换挑战，涉及新数据库、领域内和领域间任务，通过大型听力测试发现，除了顶级系统的自然度可达到人类水平，但没有团队能够获得与目标演讲者的相似度一样高的分数，并探讨了现有的客观测量是否能够预测感知表现，发现只有很少一部分能达到显著相关性。

Jun, 2023

Diff-HierVC: 基于扩散的层次化语音转换技术，具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应

Diff-HierVC 是一种基于两个扩散模型的分层语音转换系统，通过 DiffPitch 有效地生成具有目标音色的 F0，然后使用 DiffVoice 将语音转换为目标音色，通过源 - 滤波器编码器进行信息分离，并在 DiffVoice 中使用转换后的 Mel 频谱图作为数据驱动先验，从而提高语音风格转换能力，通过扩散模型中的遮罩先验，提高说话者适应质量。实验结果验证了 Diff-HierVC 在音高生成和语音风格转换性能上的优越性，在零样本语音转换场景中，其 CER 为 0.83％，EER 为 3.29％。

Nov, 2023

基于扩散的语音转换和快速最大似然采样方案

本文采用扩散概率建模来解决一次多对多语音转换问题，并通过实证研究证明了其比使用最先进的语音转换方法要更具优势。在此基础上，我们通过理论分析并研发了适用于各种扩散模型类型的随机微分方程求解器，以便进一步提高其合成质量并实现实时应用。

Sep, 2021

通过神经音频编解码器和潜在扩散模型实现高质量歌声合成

HiddenSinger 是一个高质量的歌唱声音合成系统，使用神经音频编解码器和潜在扩散模型，解决了模型复杂性和可控性的问题，并在无标签歌声数据集上训练，产生了高品质的歌声合成结果。

Jun, 2023

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021