基于一致性模型的歌声转换

Jan, 2024

CoMoSVC: Consistency Model-based Singing Voice Conversion

Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu...

TL;DRCoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法，该方法旨在实现高质量生成和高速采样，尽管其推断速度明显快于最先进的扩散原理系统，并且在主观和客观指标上实现相当或更好的转换性能。

Abstract

The diffusion-based singing voice conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process result

singing voice conversion comosvc diffusion-based inference speed conversion performance

发现论文，激发创造

CoMoSpeech: 一步语音和歌唱声音合成的一致性模型

本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech，采用单一扩散采样步骤实现语音合成。实验表明，CoMoSpeech 的推理速度比现实时间快 150 倍以上，并且在文本转语音和歌唱声音合成方面具有最佳音频质量。

May, 2023

DiffSVC：一种用于歌声转换的扩散概率模型

本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。

May, 2021

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

2023 年唱声转换挑战赛

研究声音转换的科学竞赛活动的最新版本，聚焦于歌声转换挑战，涉及新数据库、领域内和领域间任务，通过大型听力测试发现，除了顶级系统的自然度可达到人类水平，但没有团队能够获得与目标演讲者的相似度一样高的分数，并探讨了现有的客观测量是否能够预测感知表现，发现只有很少一部分能达到显著相关性。

Jun, 2023

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023

基于 PPG 的对抗性表示学习唱声转换

该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。

Oct, 2020

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021

歌声转换的潜在回归损失比较分析

本文提出一种基于歌唱声音转换（SVC）的损失函数的替代损失组件，该组件通过歌手身份嵌入网络（SIE）来测量音频转换的相似度，在实验中表现出较好的转换效果。

Feb, 2023

基于扩散的语音转换和快速最大似然采样方案

本文采用扩散概率建模来解决一次多对多语音转换问题，并通过实证研究证明了其比使用最先进的语音转换方法要更具优势。在此基础上，我们通过理论分析并研发了适用于各种扩散模型类型的随机微分方程求解器，以便进一步提高其合成质量并实现实时应用。

Sep, 2021

音乐一致性模型

MusicCM 利用一致性模型来高效合成音乐剪辑的 mel - 频谱图，通过最小化采样步骤保持高质量，并通过多个扩散过程生成连贯的音乐，实现了计算效率、保真度和自然性的有效性。

Apr, 2024